[클하] 데이터 팔아서 먹고 살 수 있나요

클럽하우스 박박사 데이터 100초토론 data

클럽하우스 요약: 데이터로 먹고 사는 방법들을 이야기해봤습니다.

true
2021-06-09
Photo by Emily Morter on Unsplash

클럽하우스에서 모더레이터를 조금씩 해보고 있습니다. 정기로 스케줄 잡고 하면 좋을 것 같은데 못하고 있습니다. 핑계를 대보자면 할 말이 많겠지만, 아직 잘 모르겠네요.

아무튼! 오늘은 새로운 시도를 공유합니다. 제가 100초 토론 이라는 클럽을 만들고, 여러 주제로 대화를 나누고 있습니다.

이번에 처음 토론 내용을 정리해서 블로그에 써보려고 합니다.

데이터를 팔아서 먹고 살 수 있나요?

먼저, 여러 분들이 참여해서 공유해준 이야기 임을 밝힙니다.

날씨 데이터

당장 데이터 그 자체로 판매가 되고 있는 것으로 날씨 데이터를 이야기 해주셨습니다. 날씨 데이터는 보험 등의 분쟁에서 사용됩니다. 정확한 과거 데이터 저장은 이런 다른 산업과의 연계로 돈이 됩니다. 계속된 시계열 데이터로 돈을 벌고 있는 사례라고 할 수 있습니다.

박박사 띵크!

IBM의 웨더컴퍼니가 대표적이라고 할 수 있겠습니다. 법적인 이슈가 있는 데이터를 정기적으로 수집해서 판매하는 bm이 가능할 것으로 보입니다. 바로 머릿속에 떠오른 것은 기사나 기사에 달린 댓글이었는데요. 유튜버들이 올린 영상들도 가능할 것 같습니다. 이 부분은 명예훼손 등의 증거가 되기 때문에 가능할 것 같습니다.

딥러닝 학습 데이터

딥러닝은 이제 명실상부한 ai를 대표하는 기술이 되었습니다. 그로 인해 새로운 산업이 만들어 지고 있는데, 바로 학습용 데이터 공급 사업입니다. 이미 데이터 라벨링은 새로운 인형 눈붙이기다 라고 하면서 조명을 받고 있었는데요. 클럽하우스 방에서는 2가지 특수한 분야에 계신 분들이 사례를 소개해 주셨습니다. 하나는 방위산업 이었고, 다른 하나는 의료산업이었습니다.

방위 산업은 딥러닝용 데이터를 수급하기 위해서 보안 관련 법을 준수해야 한다고 합니다. 의료 산업은 아무래도 개인 정보 보호법을 준수해야 하구요. 그래서 학습용 데이터가 다른 일반 분야에 비해서 비싼 편인 것 같습니다.

의료의 경우는 희소 데이터 문제도 있는데요. 개인정보 문제도 있겠지만, 이 부분을 생성 모델로 해결해서 데이터를 공급하는 스타트업도 있다고 합니다.

박박사 띵크!

확실히 데이터를 파는데 제가 이해하기 쉬운 분야였습니다. 법적인 이슈로 특별히 비싼 데이터가 필요한 산업도 있다는 부분이 재미있었습니다. 다른 분야 중에도 비슷한 문제가 있지 않을까 싶네요.

설문 데이터

큰 설문 대행 회사에서 일하시는 분이 내용을 공유해주셨습니다. 우선 기본적인 bm은 패널들에게 설문을 포인트를 통해 수집하여 설문 결과를 원하는 고객사에게 전달합니다. 이때 설문지 작성 컨설팅, 추가 설문 등이 돈을 버는 부분인 것 같습니다.

저에게는 사람이 입력하는 것에 대한 불신이 좀 있는 편인데요. 아마 설문 조사에 대해서도 비슷한 문제 제기를 해봤습니다. 위 회사는 업력이 충분한 만큼 이런 문제를 해결하려는 많은 장치를 가지고 있었습니다. 예를 들어, 지속적으로 성실하게 응답하는 패널인지는 경향으로 가질 수 있는 데이터여서 처리할 수 있다고 합니다.

고객사에서 300명, 500명으로 설문을 요청하기도 하는데요. 현재는 1,000명, 3,000명씩 설문 조사를 의뢰한다고 하네요. 300명 정도로는 지역별, 연령대별, 성별 등으로만 나눠도 개별 샘플이 매우 적어지기 때문이랍니다.

박박사 띵크!

설문에 큰 비용이 발생하던 때 부터 서베이라는 분야는 계속 데이터를 판매해 오고 있는 것 같습니다. 사람의 마음을 기계로 바로 뽑아내지 못하는 이상, 앞으로도 유망한 분야라고 생각합니다. 특히 사람의 입력을 보정하기 위한 끊임 없는 노력이 결국 경쟁력을 만들지 않을까 싶네요.

상품 리뷰

현재 이커머스 분야가 계속 성장하면서 결국 리뷰 텍스트 데이터가 가치가 높아질 것 이라고 전망하신 분이 있었습니다. 이것은 현재 판매가 된다기 보단 예상이 있었고, 그렇게 이야기는 끝나고 말았습니다.

박박사 띵크!

아마 텍스트 자체가 돈이 되기는 어려워 보입니다. 보통 리뷰 텍스트를 공개로 노출하는 것이 판매에 큰 영향을 미치기 때문입니다. 아마 재가공해서 다른 정보를 뽑아내던지, 필터를 제공하던지 하는 모델은 가능할 것 같습니다.

유전체 데이터

개인의 유전체를 분석해주는 사업이 나타나고 있습니다. 향후의 질병 가능성, 비만, 대머리 등을 추정해 줍니다. 이 분석 의뢰도 돈을 받는 서비스인데요. 유전체 데이터를 판매하는 사업도 있다고 합니다.

박박사 띵크!

간단히 검색해보니 유전체 가명정보에 대해서는 아직 결정되지 않은 것 같습니다. 유전체 자체가 꽤나 거대한 개인정보를 담고 있기도 하고, 가명화 처리 방법이 추가로 개발되어야 한다는군요. 가명화 판매 보다는 아직 사용 동의 판매의 형태를 취하고 있는 것 같네요. 새로운 시대의 건강 관리 및 예방조치여서 앞으로 시장은 점점 커질 것으로 보입니다.

블록체인 데이터

블록체인은 17년 붐때부터도 소위 ICO등을 통해 데이터 주인에게 권한을 돌려주자는 제안이 많이 나타났습니다. 클하 방에서 자신의 사업 아이템을 소개해주신 분은 꽤 자주 제가 얼굴을 뵌 분인데요. 데이터를 중앙집중 관리하지 않는 방식을 제안하셨습니다. 각 데이터 생산 주체(예> 스마트폰)가 데이터를 보유하는 방식인데요. 중앙에서는 각 클라이언트에 개인을 식별할 수 없는 데이터만 쿼리해 오는 방식입니다. 아마 쿼리당 보상이 설계되어 있을 것 같은데요.

제 스마트폰에 앱을 설치해두고, 스마트폰에만 데이터를 쌓도록 합니다. 그리고 쿼리 요청자가 예를 들어 강남역에 1월 17일에 있었던 사람이라고 찾으면 몇명이라는 집계 데이터를 얻을 수 있죠. 개인정보 침해나 동의 문제를 많이 해결하면서도 필요한 데이터를 제공하는 사업을 진행할 수 있습니다.

박박사 띵크!

새로운 시대의 설문조사 같다는 인상을 받았습니다. 마치 연합 학습에서 실제 학습용 데이터는 개별 클라이언트에 두고 학습 파라미터만 전송하는 방식이 떠올랐는데요. 응용할 수 있는 다른 방법들도 있지 않을까 싶습니다. 한가지 우려는, 최근의 스마트폰은 각 앱이 사용자 정보를 보기 점점 어렵게 만들고 있다는 점인데요. 전에는 확보할 수 없었던 혹은 비용이 매우 높았던 데이터를 얻을 수 있는 통로로 활용 가능해 보입니다.

상권 분석

직접 데이터를 판매하는 것은 아니지만, 데이터를 가공하여 지표를 판매하는 산업이 있습니다. 상권 분석이 가장 대표적일텐데요. 카드 사용 데이터, PG사의 영수증 데이터, 통신사의 인구 이동 통계량 등을 사용해서 지표를 산출합니다.

PG 업계에서 일하시는 분의 말에 따르면, 마이데이터 사업 때문에 업종 추천 api를 판매하기도 한답니다. 가게 이름은 공개되어 있지만, 업종은 카드사 마다 다르거나, 정보로써 가공하기가 쉽지 않은데요. b2b 판매로 가능한 api 사업으로 보입니다.

박박사 띵크!

다행히 카드사 경험도, 포인트 적립 스타트업 경험도 있어서 이해하기 쉬운 분야였습니다. 특히 저도 영수증 정보의 중요성을 계속 생각하고 있었는데요. 제가 영수증 정보 수집 사업을 포기한 이유가 몇 가지 있습니다. 하나는 그냥 총액이 나오는 영수증이 아닌, 항목이 표기되는 POS기가 설치된 매장이 우리나라의 카드 결제기 중 10% 정도만을 차지합니다. 물론 알아볼 당시의 값이니 지금은 달라졌겠지만 말이죠. 그리고 영수증 데이터가 생각보다 중구 난방인데다, 데이터가 잘리는 경우도 매우 많습니다.

이런 여러가지 역경을 뚫고 사업화를 진행하시는 많은 분들께 박수를 보냅니다. 저는 기계과로 학사를 시작해서 그런지 데이터의 대표성이나 완전성을 너무 따지게 되더라구요.

후기

이번 주제는 저도 많이 배우고, 사람들과 자유롭게 이야기 할 수 있어서 매우 좋았습니다. 특히 돈을 버는 내용이다 보니 다양한 분이 관심가져주시고, 이야기 나누어 주셨습니다. 앞으로도 좋은 내용으로 방을 열고, 지속적으로 이렇게 공유해 나가도록 하겠습니다.

Corrections

If you see mistakes or want to suggest changes, please create an issue on the source repository.

Reuse

Text and figures are licensed under Creative Commons Attribution CC BY-NC-ND 4.0. Source code is available at https://github.com/mrchypark/mrchypark.github.io, unless otherwise noted. The figures that have been reused from other sources don't fall under this license and can be recognized by a note in their caption: "Figure from ...".

Citation

For attribution, please cite this work as

Park (2021, June 9). mrchypark: [클하] 데이터 팔아서 먹고 살 수 있나요. Retrieved from https://mrchypark.github.io/post/클하-데이터-팔아서-먹고-살-수-있나요/

BibTeX citation

@misc{park2021[클하],
  author = {Park, Chanyub},
  title = {mrchypark: [클하] 데이터 팔아서 먹고 살 수 있나요},
  url = {https://mrchypark.github.io/post/클하-데이터-팔아서-먹고-살-수-있나요/},
  year = {2021}
}