“질 높은 AI 원료 구하라”… 이젠 데이터 확보 전쟁

작성일 07-23

<div id="layerTranslateNotice" style="display:none;"></div> 빅테크, 무단 수집 대신 거액 투자 
 <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
 <section dmcf-sid="03wz0iCnYW">
 <figure class="figure_frm origin_fig" contents-hash="7b9e539e154b4ec337075d36c302167ab85b4578ee3b7b4761bf87041b5bd288" dmcf-pid="pNbDj541Zy" dmcf-ptype="figure">
 <img alt="그래픽=김현국" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202507/23/chosun/20250723005151295juue.png" data-org-width="1200" dmcf-mid="3X4IwpMUHY" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202507/23/chosun/20250723005151295juue.png" width="658">
 <figcaption class="txt_caption default_figure">
 그래픽=김현국
 </figcaption>
 </figure>
 미국의 이미지 공유 SNS(소셜미디어)인 핀터레스트는 지난주 연봉 24만7200달러(약 3억4000만원)짜리 ‘데이터 라벨링’ 부문 수석 관리자 채용 공고를 냈다. 핀터레스트가 개발하는 인공지능(AI) 학습에 필요한 데이터 수집 전략을 탐색하고, 여러 팀 간 의사소통을 총괄하는 자리다. 미국 빅테크 메타도 연봉 10만9000달러에 보너스와 주식을 지급하는 조건으로 풀타임 제품 데이터 운영 PM(프로젝트 관리자) 채용 공고를 냈다. 데이터를 분류하고 주석을 달아 AI가 학습을 잘할 수 있도록 돕는 역할이다.
 AI 개발 경쟁이 뜨거워지면서 ‘AI의 원료’라 불리는 데이터 확보 전쟁도 치열해지고 있다. 아무리 성능 좋은 AI를 개발해도 학습할 데이터가 없으면 깡통 AI에 불과하기 때문이다. 얼마나 양질의 데이터를 얼마나 많이 학습시키느냐가 AI 성능을 좌우한다. 그동안 AI 업체들은 AI 학습과 훈련을 위해 인터넷 사이트 등에서 글이나 사진 같은 데이터를 무단으로 긁어 썼지만, 최근엔 양질의 데이터를 확보하고 이를 전문적으로 분석해 활용 가치를 극대화하기 위해 고심 중이다. 미국·독일 등 각국 정부도 AI에 바로 활용할 수 있는 질 높은 공공 데이터 개방에 적극적으로 나서고 있다.
 ◇“데이터가 AI 수준 좌우” 수십조 錢쟁 불붙어
 미국 빅테크 메타는 지난달 143억달러(약 19조8000억원)를 투자해 데이터 라벨링 업체 스케일AI 지분 49%를 인수했다. 투자금 규모를 두고 테크 업계에선 “AI에 데이터가 얼마나 중요한지 다시 일깨워 줬다”는 말이 나왔다. 최근 AI 업체들은 단순 데이터보다 분류가 잘돼 있고, 질 좋은 데이터를 확보하기 위해 움직이고 있다. 시급 2달러를 주고 케냐·필리핀 등에서 단순히 데이터를 분류하는 작업에서 벗어나 박사급 최고급 인력을 고용해 데이터의 의미와 활용 방안을 연구하며 가치를 높이는 작업에 몰두하고 있다. 파이낸셜타임스는 “코딩부터 물리학, 금융까지 다양한 분야에서 AI가 좋은 성능을 발휘하기 위해 더욱 정교한 데이터가 필요해졌다”고 했다.
 ◇질 좋은 데이터 확보 전쟁
 미 실리콘밸리 테크 기업들도 인터넷에 떠도는 출처 불명의 유령 정보가 아니라 직접 수집한 개인 정보나 대규모 데이터를 활용해 AI를 학습하는 데 집중하고 있다. 챗GPT를 개발한 오픈AI는 지난해 5월 월스트리트저널을 보유한 뉴스코퍼레이션과 5년간 3400억원 규모의 콘텐츠 라이선스 계약을 체결했고, 아마존은 지난 5월 뉴욕타임스와 AI 활용을 위한 기사 콘텐츠 계약을 맺었다. 애플은 2024년 셔터스톡과 AI 학습용 이미지 수백만 장에 대한 라이선스 계약을 맺었고, 구글은 검색 엔진 크롬과 유튜브·지메일 등 자사 플랫폼 내에서 발생하는 대규모 데이터를 AI 학습에 활용하기 시작했다.
 AI용 질 좋은 데이터에 대한 수요가 높아지자, 아예 데이터를 공개하고 유료화하는 업체도 늘고 있다. 전 세계 웹 트래픽의 약 20%를 처리하는 클라우드 서비스 업체 클라우드플레어는 최근 AI 크롤러(웹 페이지를 자동으로 탐색하고 색인하는 검색 엔진) 접근 방지 서비스인 ‘크롤링 건당 요금 부과’ 모델을 출시했다. 데이터를 무단으로 긁어가는 크롤링을 1차로 막고, 크롤링이 계속될 경우 돈을 내면 이를 허가해주는 것이다.
 ◇양질 데이터 확보 위해 뛰는 국가들
 각국 정부도 AI 개발과 학습을 돕기 위해 양질의 데이터 확보에 총력을 기울이고 있다. 미 정부는 원천 데이터를 적극적으로 개방해 기업들이 이를 활용해 부가가치를 창출하도록 유도한다. 미 정부가 개설한 공식 데이터 공개 사이트인 ‘Data.gov’에는 미국 내 전기차 데이터, 배출 가스 현황 등 공공 데이터 31만2841개가 있다. 미 스탠퍼드대 주도로 이미지 데이터 1400만개를 모아놓은 이미지넷은 다방면의 AI 연구에 활용되고 있다. 유럽은 유럽 내 국가들의 데이터를 공유하고 활용하기 위한 ‘가이아-X’ 프로젝트를 진행 중이다.
 반면 한국은 정부나 기업 모두 AI 학습용 데이터 확보와 관리가 미흡한 상태다. 과학기술정보통신부의 ‘2024 데이터산업 현황 조사’에 따르면, 기업들의 데이터 거래 시 애로 사항은 ‘구매 데이터의 가격 부담’이 39.6%로 가장 높았고 ‘쓸 만한 양질의 데이터 부족’(39.1%)이 그 뒤를 이었다. 영어와 달리 한국어로 된 데이터 양이 절대적으로 부족하고, 고품질이거나 정제된 데이터는 가격이 비싸기 때문에 소규모 AI 개발 기업에 부담이 될 수밖에 없다.
 양질의 공공 데이터가 실시간으로 쌓이지만 공개되지 않아 무용지물이다. 현재 AI 기술 개발에 필요한 개인 정보를 일정 요건하에 동의 없이 처리할 수 있도록 허용하는 ‘개인 정보 보호법’ 개정안이 발의됐지만, 국회에 계류 중이다. 이성엽 고려대 교수는 “의료 데이터나 판례 같은 법률 데이터는 품질이 좋고 양도 많지만, 개인 정보 보호 등의 이유로 개방이 어렵다”며 “일정 조건을 달아 공개하면 AI 개발 기업에 큰 도움이 될 것”이라고 했다.
 ☞데이터 레이블링(data labeling)
 인공지능(AI)에 학습시키는 데이터를 분류하는 작업을 말한다. 예컨대 자율 주행용 AI를 개발하기 위해 영상이나 사진 속 자동차와 사람, 자전거 등에 표지를 붙이는 일이다. AI 개발 초기에는 단순 작업이었지만, 최근엔 박사급 전문가를 고용해 더 정밀하고 가치 있는 데이터 정제가 이뤄진다.
 </section> 
 </div> 
 Copyright © 조선일보. 무단전재 및 재배포 금지.

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

먹튀폴리스

“질 높은 AI 원료 구하라”… 이젠 데이터 확보 전쟁

멤버랭킹

관련자료

멤버랭킹