‘공짜 데이터’ 고갈에 AI기업들 유료·전문 지식 확보 비상 작성일 12-21 9 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="tFT1wdFY1X"> <figure class="figure_frm origin_fig" contents-hash="478850f4058bb8c6eae3401e80bf71f0eda3f3ae5f55f93382c0f0325111552e" dmcf-pid="F3ytrJ3GHH" dmcf-ptype="figure"> <p class="link_figure"><img alt="제미나이 생성 이미지/제미나이" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/21/chosun/20251221125806297gzmp.jpg" data-org-width="1024" dmcf-mid="1EmTg4WIGZ" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/21/chosun/20251221125806297gzmp.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 제미나이 생성 이미지/제미나이 </figcaption> </figure> <p contents-hash="deb3c08e9c4157fefa8497d8b47fa5a827785c6cfd0891666536ed91130a6626" dmcf-pid="30WFmi0HZG" dmcf-ptype="general">인공지능(AI) 기업들의 데이터 확보 전쟁이 과학 등 전문 지식 분야로 확전하고 있다. 쉽게 접근이 가능한 ‘공짜 데이터’가 점차 고갈되자 기업들은 이 같은 전문 데이터를 구하기 위해 이를 가진 기업들과 파트너십을 서두르고 있다.</p> <p contents-hash="57a7940540ab3bbdd586d9d21f6782724499b1bae68ceea0268588abf94eaa59" dmcf-pid="0pY3snpX5Y" dmcf-ptype="general">오픈AI는 최근 회계 소프트웨어 기업 제로를 포함해 생명공학·소프트웨어·금융 분야 업체들과 데이터 사용 계약에 대해 논의했다고 미국 정보기술(IT) 전문 매체 디인포메이션이 지난 17일(현지 시각) 보도했다. 앤트로픽과 구글 딥마인드, 구글의 신약 개발 자회사 아이소모픽 랩스 등도 바이오테크 스타트업들과 데이터 관련 파트너십을 추진하고 있는 것으로 드러났다. 아이소모픽 랩스 대변인은 논평 요청에 “새로운 치료제 설계에 활용하기 위한 목적 등으로 산업별 데이터에 관한 논의를 진행 중”이라고 했다.</p> <p contents-hash="8a255f895c0ea27df0a1f77f98dc3731a33f9e628669a58307c6dfc33598e6d6" dmcf-pid="pUG0OLUZHW" dmcf-ptype="general">AI 기업이 범용 지식에서 더 나아가 진정한 혁신을 이루기 위해 전문 데이터가 필요하기 때문이다. 지금 대부분 AI, 특히 거대언어모델(LLM)은 인터넷에 공개된 범용 정보를 기반으로 학습해 왔다. 그러나 이런 범용 데이터에는 기업 내부 문서나 학술 논문, 의료·법률·금융 등의 실제 사례 데이터는 포함되지 않는다.</p> <p contents-hash="17503a3f6e91a43ff57360236a8d21d7951fa68b7a32b35a9f66ef6bcfe2b52d" dmcf-pid="UgQLBHgRXy" dmcf-ptype="general">또 ‘공짜 데이터’가 고갈됐기 때문이기도 하다. 그간 모델 훈련을 위해 인터넷 등에서 긁어모은 공개 데이터를 사실상 모두 소진했다. 이 때문에 AI 기업들은 언론사들과도 콘텐츠 계약을 맺기도 했다. 같은 이유로 유료 데이터를 경쟁사보다 빨리, 많이 확보하기 위해 이를 가진 기업과의 협력을 서두르는 것이다.</p> <p contents-hash="2e75addacdb116a53542aa30cae703b5f212b4cd807619075ddb4a1834f599f7" dmcf-pid="uaxobXaeZT" dmcf-ptype="general">하지만 이런 데이터를 가진 기업들은 AI 기업에 공개하는 데 소극적이다. AI에 데이터 곳간을 열어줬다가 고유 사업 영역이 침해받거나 존립 자체가 위협받을 수 있다는 위기감 때문이다. 벤처캐피털 디멘션의 창립자 자베인 다르는 기업이 AI 기업과 데이터를 공유할 때 “어떤 데이터를 얼마나 오래 어떤 앱과 공유하는지 명확히 해야 한다”면서 “그렇지 않으면 결국 미래 경쟁자를 키우는 결과를 초래할 수 있다”고 지적했다.</p> <p contents-hash="4a3fb2e9e284b6024c167a49d42b064df76822404793f5eb9357595a5bbbd0bb" dmcf-pid="7NMgKZNd5v" dmcf-ptype="general">데이터가 귀해지다 보니 폐업 위기에 몰린 스타트업이 자신이 보유한 데이터를 통째로 판매하는 사례도 나오고 있다. 데이터 라벨링 스타트업 ‘튜링’은 문을 닫는 기업 5∼10곳에 수만 달러를 주고 소프트웨어 코드를 통째로 사들인 다음 이를 AI 기업들에 코딩 모델 훈련용 데이터로 판매하고 있다.</p> </section> </div> <p class="" data-translation="true">Copyright © 조선일보. 무단전재 및 재배포 금지.</p> 관련자료 이전 한국 탁구에 또 당했다!…왕하오, 中 탁구대표팀 감독서 경질 수순→"올림픽 지도할 새 인물 모집 공고" 12-21 다음 TXT 태현, ‘거리에서’로 체인지스트릿 첫 버스킹…가창력 음색 둘다 좋아요 12-21 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.