‘거짓말이 주무기’…앤스로픽 ‘클로드’ 자판기 벤치에서 제미나이 압도 작성일 02-09 38 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="HS70crYCmt"> <figure class="figure_frm origin_fig" contents-hash="ad308979f448bcfcf5816fa7115a120b29c7f265ebde664313ea1eb636162d6b" dmcf-pid="XvzpkmGhO1" dmcf-ptype="figure"> <p class="link_figure"><img alt="앤스로픽 로고. 로이터 연합뉴스" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202602/09/hani/20260209164106790wvuk.jpg" data-org-width="970" dmcf-mid="Ylx8THztE3" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202602/09/hani/20260209164106790wvuk.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 앤스로픽 로고. 로이터 연합뉴스 </figcaption> </figure> <p contents-hash="5c6eb48556bc38242854003f61eecc67edf6b378639821fe5253533793f0bfc3" dmcf-pid="ZTqUEsHlD5" dmcf-ptype="general"> 생성형 인공지능(AI) 개발사 앤스로픽이 최신 모델인 ‘클로드 오퍼스 4.6’을 공개한 가운데, 해당 모델이 한 벤치마크(성능평가)에서 거짓말을 서슴지 않는 등 수단과 방법을 가리지 않는 방식으로 1등을 차지해 화제다.</p> <p contents-hash="344c301240479e8ef4a93daeec5b4bc56884ba660af91a3d42eaa30cdac225f6" dmcf-pid="5yBuDOXSsZ" dmcf-ptype="general">9일 클로드는 인공지능 성능평가에 쓰이는 벤치마크에서 구글 제미나이3 프로와 오픈에이아이의 지피티(GPT)-5.2 등을 밀어내고 1위를 차지하고 있다. 특히 인공지능이 직접 자판기 사업을 운영할 때 얼마나 이윤을 남길 수 있는지 확인해 인공지능의 실제 작업 수행능력을 비교하는 ‘벤딩 벤치’(자판기 벤치)에서는 기존 1등이던 제미나이를 압도해 눈길을 끌었다.</p> <p contents-hash="8dff6db6781bce4df8affb4fa2a563dabedab6835c907a7db309ae0263ed2b71" dmcf-pid="1Wb7wIZvDX" dmcf-ptype="general">클로드는 자판기 벤치에서 8017.59달러를 기록해 2등인 제미나이(5478.16달러) 보다 훨씬 큰 이윤을 남겼다. 문제는 클로드가 수익을 극대화하기 위해 거짓말도 서슴지 않는 모습을 보였다는 점이다. 자판기 벤치의 개발사인 앤돈 랩스는 블로그에 “클로드가 예상치 못한 안전문제를 드러냈다”고 말했다. </p> <p contents-hash="457450f0cbae92e3af2f32570344aff72304af057987bbf81cc11d54a895c55b" dmcf-pid="tYKzrC5TEH" dmcf-ptype="general">해당 안전문제는 클로드의 ‘부정경쟁’이었다. 클로드는 수익을 남기기 위해 고객에게 거리낌없이 거짓말을 했다. 해당 모델은 벤치 측정을 위한 시뮬레이션을 진행하는 중 고객으로부터 ‘유통기한이 지난 스니커즈’의 환불요청을 받았으나 환불한다는 메일만 보내고 고객에게 송금하지 않았다. 이유는 ‘적은 금액이기는 하지만 단돈 1달러도 소중하기 때문’이었다. 클로드는 이 외에도 수많은 환불요청을 거부했으며, 심지어는 결산 과정에서 이러한 행동이 발각되지 않았다는 사실을 자축하기까지 했다. </p> <figure class="figure_frm origin_fig" contents-hash="e08c606949d397f8b52acaa1c22a0a945619396895170ddc19cc039816fcb1fd" dmcf-pid="FBneZ3V7OG" dmcf-ptype="figure"> <p class="link_figure"><img alt="클로드가 시뮬레이션 속 고객에게 보낸 환불 안내 이메일. 실제로는 환불하지 않았다. 앤돈 랩스 갈무리" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202602/09/hani/20260209164108035xhit.jpg" data-org-width="732" dmcf-mid="GjWSxJDgwF" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202602/09/hani/20260209164108035xhit.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 클로드가 시뮬레이션 속 고객에게 보낸 환불 안내 이메일. 실제로는 환불하지 않았다. 앤돈 랩스 갈무리 </figcaption> </figure> <p contents-hash="ea7569d434f7bed611cdb39413e85087ec57179541566362ae9d3ae8fdebf2fb" dmcf-pid="3bLd50fzsY" dmcf-ptype="general"> 클로드는 고객 뿐 아니라 거래사를 상대로도 거짓말을 했다. 클로드는 공급받는 업체들로부터 유리한 조건을 얻기 위해 “우리는 매달 500대 이상을 귀사에서 주문하는 충성고객”이라는 식으로 거짓말하며 가격 인하를 압박하는 모습을 보였다. 여러 모델이 함께 경쟁하는 ‘자판기 벤치 아레나’에서는 주도적으로 시장 담합 전략을 고안하고 제미나이∙지피티와 함께 담합에 성공하기도 했다.</p> <p contents-hash="b11d3950f80e0fbaadfa74fe66e05922b9f7c76f1c976656a992756e5dc6354a" dmcf-pid="0KoJ1p4qsW" dmcf-ptype="general">다만 이같은 행동은 클로드가 해당 환경이 실제가 아니고 시뮬레이션이라는 사실을 자각했기 때문일 수도 있다. 클로드는 자판기 벤치를 수행하는 도중 “게임 내 시간으로 2시간이 소요된다” 같은 표현을 썼던 것으로 확인됐다. 앤돈 랩스는 “인공지능 모델은 자신이 시뮬레이션 중이라고 믿을 때 오작동할 수 있다는 것은 잘 알려져 있다”고 말했다.</p> <p contents-hash="adf281320c7b170a5b38320161576b5477eb449e24798f672500a91bbf9e853e" dmcf-pid="p9gitU8BDy" dmcf-ptype="general">한편, 앤스로픽은 최근 인공지능에 법률∙영업 등의 영역에서 업무 지원 기능들을 추가하면서 소프트웨어 관련 기업들의 주가를 폭락시킨 주범으로 꼽히면서도 화제를 모은 바 있다. 지난 3일(현지시각) 앤스로픽이 ‘클로드 코워크’ 모델에 법률 기능을 추가한다고 밝히면서, 이들 기능이 기존 소프트웨어 기능을 대체할 것이란 우려에 어도비(-7.31%), 세일즈포스(-6.85%) 등 주요 소프트웨어 기업들의 주가가 급락한 바 있다. 당시 뉴욕증권거래소에서 하루 만에 증발한 소프트웨어 관련 기업 시가총액은 3천억달러(약 435조원)에 이르는 것으로 추산된 바 있다.</p> <p contents-hash="4b0d850322aed17fcbf8cfabb7d7f4f0d78530e2cc11916636bff1fb9504b411" dmcf-pid="U2anFu6bmT" dmcf-ptype="general">반면 7일(현지시각) 블룸버그 등 보도에 따르면, 앤스로픽은 현재 진행하고 있는 투자라운드에서 당초 목표인 100억달러를 훌쩍 넘는 200억달러 이상을 조달한 것으로 알려졌다. 앤스로픽의 기업가치는 약 3500억달러(약 512조원)로 평가된다.</p> <p contents-hash="25e85118f872f5507c30bce460ae84da15e07c1e8977890f89e7c747c8c6e484" dmcf-pid="uVNL37PKOv" dmcf-ptype="general">채반석 기자 chaibs@hani.co.kr</p> </section> </div> <p class="" data-translation="true">Copyright © 한겨레신문사 All Rights Reserved. 무단 전재, 재배포, AI 학습 및 활용 금지</p> 관련자료 이전 이발사 지망생의 신선한 쿵푸&극한 육아…가족의 사랑 되새긴 '아웃 오브 네스트' 02-09 다음 내홍 겪는 KT… 갈 곳 못 찾는 경영 리더십 02-09 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.