“같은 모델인데 왜 이렇게 차이나지?”…‘이것’ 따라 AI 성능 확 갈린다는데

작성일 03-02

<div id="layerTranslateNotice" style="display:none;"></div>  <strong class="summary_view" data-translation="true">에이전트 관리 ‘하네스 엔지니어링’<br>계획 수립부터 저장파일 접근 등 결정<br>같은 모델도 하네스 따라 성능 차이<br>크래프톤 ‘리더보드 2위’ 기록하기도</strong> 
        <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
         <section dmcf-sid="8jeqB6mjlQ">
          <figure class="figure_frm origin_fig" contents-hash="e52160e84889f5697ef8db00d800e3417b528e04e4d44117c8bf5ce6648c3d39" dmcf-pid="6jeqB6mjlP" dmcf-ptype="figure">
           <p class="link_figure"><img alt="AI 에이전트의 작동 방식에서 AI 모델과 컨텍스트 윈도우, 에이전트 ‘하네스’의 역할을 컴퓨터의 중앙처리장치(CPU)·메모리(RAM)·운영체제(OS)에 비유해 설명하는 이미지. [출처 = 필립 슈미드 구글 딥마인드 엔지니어 블로그]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202603/02/mk/20260302140602845xpxr.jpg" data-org-width="700" dmcf-mid="9vanLEFYCX" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202603/02/mk/20260302140602845xpxr.jpg" width="658"></p>
           <figcaption class="txt_caption default_figure">
            AI 에이전트의 작동 방식에서 AI 모델과 컨텍스트 윈도우, 에이전트 ‘하네스’의 역할을 컴퓨터의 중앙처리장치(CPU)·메모리(RAM)·운영체제(OS)에 비유해 설명하는 이미지. [출처 = 필립 슈미드 구글 딥마인드 엔지니어 블로그]
           </figcaption>
          </figure>
          <div contents-hash="281087a4d885047199d40cfbc218efb387ab263ba6d83efa36fd8b0d150ceb1d" dmcf-pid="PAdBbPsAv6" dmcf-ptype="general">
           인공지능(AI) 에이전트가 스스로 작업하고 다른 에이전트들과 소통하는 수준으로 발전하면서 AI 모델을 넘어 에이전트 작업을 관리하는 운영 기술이 에이전트 성능을 가르는 요인으로 부상하고 있다.
          </div>
          <p contents-hash="e684e8157c81cd62f4bea5d4b043a95262b637083a9a43b6697f3c6566308315" dmcf-pid="QcJbKQOch8" dmcf-ptype="general">특히 에이전트의 구성 요소인 ‘하네스(harness)’는 AI의 작업 환경과 과정을 총괄하고 조율하는 역할로, 같은 모델임에도 어떤 식으로 하네스를 구성하는지에 따라 에이전트 성능이 확연히 달라질 수 있다는 사례들이 등장하고 있다.</p>
          <p contents-hash="70cee36ea6b8825f7ae4776dc335e3453f421d3c364109c226db8f4205c09b70" dmcf-pid="xkiK9xIky4" dmcf-ptype="general">글로벌 빅테크들 또한 ‘하네스 엔지니어링’이라는 개념을 강조하며 관련 분야 고도화에 집중하고 있다.</p>
          <p contents-hash="9c2bf2e8014e907e60e9e689282ffdd8f5b00297a0cbeece6433b85e367258e2" dmcf-pid="y7ZmsyV7Sf" dmcf-ptype="general">28일 정보기술(IT) 업계에 따르면 게임사 크래프톤은 최근 AI 에이전트가 컴퓨터 터미널 환경에서 얼마나 작업을 잘 수행하는지 평가하는 ‘터미널벤치 2.0’ 리더보드에서 글로벌 2위를 기록했다.</p>
          <p contents-hash="029ce83ae20431997595a882289fd7177b4db9613aefb7c9676c0cb99b973260" dmcf-pid="Wz5sOWfzyV" dmcf-ptype="general">해당 벤치마크는 AI 에이전트가 명령어 작업부터 수학, 머신러닝 같은 과제를 얼마나 잘 수행하는지 평가하는 테스트다. 크래프톤이 제출한 에이전트는 23일 기준 74.8%의 정확도를 기록하며 2위를 기록했다. 1위를 기록한 오픈AI(75.1%)와는 0.3%포인트 차이다.</p>
          <p contents-hash="4db8061eb1973ffb00650c7466763a7e419803c50fc5c71abe8f1eca4a08935d" dmcf-pid="Yq1OIY4qC2" dmcf-ptype="general">크래프톤은 오픈AI나 앤스로픽처럼 원천 모델 개발에 집중하는 회사는 아니지만, 구글 모델을 기반으로 사용하면서 기존 오픈소스 하네스 시스템을 자체 개선해 활용하면서 이같은 성과를 거뒀다.</p>
          <figure class="figure_frm origin_fig" contents-hash="90a1b3c4836102dbbd59193f9f5a6f05c85c9ad75c4ea948207d55c3ab5575b6" dmcf-pid="GNRzq8rNl9" dmcf-ptype="figure">
           <p class="link_figure"><img alt="AI 에이전트가 컴퓨터 터미널 환경에서 얼마나 작업을 잘 수행하는지 평가하는 ‘터미널벤치 2.0’의 리더보드. 2월 23일 기준 크래프톤이 제출한 에이전트 기술이 2위와 3위에 올라 있다. [사진 = 터미널벤치 웹사이트]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202603/02/mk/20260302140604134lldh.png" data-org-width="700" dmcf-mid="VT5GHpiPTR" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202603/02/mk/20260302140604134lldh.png" width="658"></p>
           <figcaption class="txt_caption default_figure">
            AI 에이전트가 컴퓨터 터미널 환경에서 얼마나 작업을 잘 수행하는지 평가하는 ‘터미널벤치 2.0’의 리더보드. 2월 23일 기준 크래프톤이 제출한 에이전트 기술이 2위와 3위에 올라 있다. [사진 = 터미널벤치 웹사이트]
           </figcaption>
          </figure>
          <div contents-hash="cbb04b4a5619b66a758b11abf6c39c04fb4700fabe5ebcd085e43da917fa7959" dmcf-pid="HjeqB6mjhK" dmcf-ptype="general">
           하네스는 말과 같은 동물이 착용하는 마구를 의미하는데, AI에서는 모델이 장시간 작업을 수행하도록 관리하는 인프라 기술을 일컫는다.
          </div>
          <p contents-hash="096d3df945a9e385c0104d39445b68949b3c53cd5d3e27243ff220f517524621" dmcf-pid="XAdBbPsATb" dmcf-ptype="general">연산은 AI 모델이 수행하지만 외부 도구와 AI 모델을 연결하고 데이터 접근을 관리하며 다른 에이전트를 관리하는 역할을 모두 하네스가 담당한다.</p>
          <p contents-hash="9d64dc8d519783326aa670b28c83ef50e25e6e858d50362617b0a1928b87a1e8" dmcf-pid="ZcJbKQOcSB" dmcf-ptype="general">AI 모델이 출력한 결과물을 스스로 점검하도록 하거나, 연산 중 새로운 정보를 발견할 경우 이를 반영해 수정하도록 하는 역할도 하네스가 수행하는 식이다.</p>
          <p contents-hash="5b399a81a3b26cf25f5bb3c40c4ee5601351bbc17fea1fc04673c3fe558dd8fb" dmcf-pid="5kiK9xIkSq" dmcf-ptype="general">AI 업계는 하네스 기술이 에이전트 성능에 핵심적인 요소로 보고 지난해 하반기부터 관련 연구를 집중하고 있다. 에이전트가 수행하는 작업의 양이 많아지고 복잡도가 높아질수록, 에이전트의 기억을 유지하거나 일관성을 확보하는 과정에서 하네스의 역할이 커지기 때문이다.</p>
          <p contents-hash="e770995503bbbdbdb40bf6c7daec115c57a80f94c53b90f4c2d72411cc7f73b2" dmcf-pid="1En92MCESz" dmcf-ptype="general">크래프톤은 오픈소스 하네스인 ‘터미누스 2(Terminus 2)’를 활용하면서도 AI 모델이 작업 과정에서 단계별로 자기 점검을 진행하도록 명령을 추가하는 등 ‘터미누스-키라(KIRA)’를 개발해 정확도를 획기적으로 높였다.</p>
          <p contents-hash="f792772ce3c9b425bf3917acef7b71137ecd6901a5cc7760a28380f0f745eb60" dmcf-pid="tDL2VRhDl7" dmcf-ptype="general">크래프톤처럼 하네스를 고쳐 에이전트의 성능을 최적화하는 과정을 ‘하네스 엔지니어링’이라고 부른다.</p>
          <p contents-hash="cd6e3d11b1fce67212f72ffdef9aa533220dd7529e4383a158f8e11b6f45f7a5" dmcf-pid="FwoVfelwCu" dmcf-ptype="general">크래프톤 관계자는 이번 성과에 대해 “AI 엔진(모델) 자체가 아니라 엔진을 잘 활용하는 설계 기술이 성능을 좌우한다는 것을 실증한 사례”라고 설명했다. 실제로 해당 벤치마크에서는 동일 모델을 사용하더라도 어떤 하네스를 사용했는지에 따라 점수가 10%포인트 이상 차이가 나는 사례도 많았다.</p>
          <div contents-hash="0a5b8d696ebd9bdaa05ac0ae9f80d3ffc984b2a7e02f34f967d8b5e7c62cd988" dmcf-pid="3rgf4dSrSU" dmcf-ptype="general">
           <div>
            <strong>마누스, 성능 위해 반년간 하네스만 5번 고쳐<br>오픈AI·앤스로픽도 하네스 고도화 집중</strong>
           </div>
          </div>
          <figure class="figure_frm origin_fig" contents-hash="626974c4ee556744a8d59935df402f56e03905cef002bb79f4fe96735e48caa9" dmcf-pid="0AdBbPsATp" dmcf-ptype="figure">
           <p class="link_figure"><img alt="지난해 11월 앤스로픽이 자사 기술 블로그에 게시한 하네스 기술 관련 보고서 [출처 = 앤스로픽 웹사이트]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202603/02/mk/20260302140605387etpk.png" data-org-width="700" dmcf-mid="4sEMRaHlCx" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202603/02/mk/20260302140605387etpk.png" width="658"></p>
           <figcaption class="txt_caption default_figure">
            지난해 11월 앤스로픽이 자사 기술 블로그에 게시한 하네스 기술 관련 보고서 [출처 = 앤스로픽 웹사이트]
           </figcaption>
          </figure>
          <div contents-hash="039d11083bd48cd5e50fec612986aaa07c470da0667bf4717d6e340266141882" dmcf-pid="pcJbKQOcS0" dmcf-ptype="general">
           글로벌 빅테크도 이같은 하네스 설계에 집중하면서 하네스 엔지니어링에 집중하고 있다.
          </div>
          <p contents-hash="97d1c13815993e2ed13f70324518662135274e274f9345abf1fb992c36e64944" dmcf-pid="UkiK9xIkS3" dmcf-ptype="general">오픈AI는 지난 11일 ‘하네스 엔지니어링: 에이전트 우선 환경에서 코덱스 활용하기’라는 블로그 게시물을 통해 “엔지니어들의 주된 업무는 이제 코드를 작성하는 것이 아니라 환경을 설계하고 코덱스 에이전트가 안정적으로 작업할 수 있는 피드백 루프를 구축하는 것”이라고 설명했다.</p>
          <p contents-hash="202b2cba8ac13e9f21b2b08d5882ae27f64f4bf72b04f8413712aab457037c2d" dmcf-pid="uEn92MCESF" dmcf-ptype="general">앤스로픽 또한 지난해 12월 ‘장기 실행 에이전트를 위한 효과적인 하네스’라는 글을 통해 “에이전트가 여전히 많은 어려움을 겪고 있다. 더 효과적인 하네스를 개발하는 것이 필요하다”고 밝힌 바 있다.</p>
          <p contents-hash="aceaa4db48f7c733ef2852f2e81b06f8d392c89373fc5b836ce2c4571ab2f81c" dmcf-pid="7DL2VRhDWt" dmcf-ptype="general">AI 에이전트 특화 기업들도 마찬가지다. 메타에 인수된 에이전트 기업 마누스는 에이전트 성능을 높이기 위해 동일 모델은 유지하면서 하네스만 6개월 동안 5번이나 재구성한 것으로 알려졌다.</p>
          <p contents-hash="a94fdc6aec3df07a79f14723358046a1d87e8ded37356e0f4fcbe1a8a26d952a" dmcf-pid="zwoVfelwh1" dmcf-ptype="general">필립 슈미드 구글 딥마인드 엔지니어는 블로그에서 “우리는 수년간 오직 모델에만 집중했고, 모델이 얼마나 똑똑한지만 질문해 왔다”며 “작업이 길고 복잡해질수록 모델이 작업 흐름을 안정적으로 실행할 수 있도록 하는 시스템이 중요한데, 그 시스템이 바로 에이전트 하네스”라고 설명했다.</p>
         </section> 
        </div> 
        <p class="" data-translation="true">Copyright © 매일경제 &amp; mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지</p>

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

먹튀폴리스

“같은 모델인데 왜 이렇게 차이나지?”…‘이것’ 따라 AI 성능 확 갈린다는데

멤버랭킹

관련자료

멤버랭킹