달파, 오픈AI 'MLE-벤치'서 글로벌 최고 수준 에이전트 성능 입증 작성일 05-07 18 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="FobS8H8BOk"> <figure class="figure_frm origin_fig" contents-hash="6ba2ab532f434a35389a4624063a1187b0627695970749a40958b8cf9c410afb" dmcf-pid="3gKv6X6brc" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202605/07/etimesi/20260507123503564tuqr.png" data-org-width="700" dmcf-mid="ttr6ldlwEE" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202605/07/etimesi/20260507123503564tuqr.png" width="658"></p> </figure> <p contents-hash="121de992c68cfc27ae02b412ebb0873fcce447d6de1f1f71bfffa45289450137" dmcf-pid="0SL7c2cnmA" dmcf-ptype="general">AI 에이전트 전문기업 달파는 오픈AI가 제시한 AI 에이전트 성능 평가 지표인 'MLE-벤치'를 활용해 자체 기술력을 검증한 결과 글로벌 최고 수준인 종합 점수 79.11%를 기록했다고 7일 밝혔다.</p> <p contents-hash="961374003ae26cbd04b2e77eb653daadb836f792c56daab8186461da812457a9" dmcf-pid="pvozkVkLOj" dmcf-ptype="general">MLE-벤치는 오픈AI가 공개한 기술 지표로, 세계 최대 AI 경진대회 플랫폼 캐글(Kaggle)의 실제 비즈니스 과제 75개를 AI 에이전트가 얼마나 자율적으로 해결하는지 측정한다. 데이터 전처리부터 모델 학습, 최적화까지 머신러닝 엔지니어링 전 과정을 스스로 완수해야 하는 고난도 벤치마크다.</p> <p contents-hash="861d008d33cb851ed39981470ee8cf296207519adaaaa0060af7e67835288fec" dmcf-pid="UTgqEfEosN" dmcf-ptype="general">달파의 '코브라 에이전트'가 기록한 79.11%의 점수는 기존 글로벌 리더보드에 공개되었던 구글 AI 연구팀의 'CAIR MARS+'(62.67%), 중국 바이두의 'FM-Agent'(64.44%) 등 글로벌 빅테크들의 기록을 크게 웃도는 수치다. 일부 과제에서는 AI가 인간 참가자 1위의 성과를 넘어서기도 했다.</p> <p contents-hash="9d37bad15a43e52b8b50c1e935a446b42bdc2b2dfbd1046576f91d7f10f36230" dmcf-pid="uyaBD4DgEa" dmcf-ptype="general">달파는 이번 성과가 자사의 자체 에이전트 프레임워크인 '코브라'의 자율 탐색 및 자가 개선 역량을 객관적으로 증명한 결과라고 설명했다. 이 과정에서는 환경과 모델의 상호작용을 내부적으로 시뮬레이션하며 미래 결과를 예측하는 월드 모델 방법론이 활용됐다. 달파는 이번 기술적 성과와 구체적인 구현 방식을 담은 연구 논문을 조만간 발표할 예정이다.</p> <p contents-hash="2fb71830868e92158980e137edf96ab1d98b5028a18e4b5b788f5ad7ff170a5d" dmcf-pid="7WNbw8waDg" dmcf-ptype="general">달파는 기술력을 바탕으로 소비재(CPG) 브랜드를 위한 '에이전틱 OS' 고도화에 박차를 가하고 있다. 에이전틱 OS는 기업 내부의 파편화된 데이터를 통합하고, AI 에이전트가 신상품 기획부터 물류 최적화, 마케팅 실행까지 전 과정을 자율적으로 수행하는 시스템이다.</p> <p contents-hash="407e8dc1fec132b9bbeb724cb58133ec2d442f7c1cbb98dea3215334a051275a" dmcf-pid="zYjKr6rNOo" dmcf-ptype="general">김도균 달파 대표는 “이번 검증 결과는 달파의 AI 에이전트가 글로벌 빅테크와 비교해도 손색없는 세계 최고 수준의 실무 성과를 낼 수 있음을 보여준다”며 “이를 실제 소비재 산업 현장의 업무 혁신으로 연결하는 데 집중하겠다”고 말했다.</p> <p contents-hash="de1a7707827e163addf4503a186ac9ccdf13c0cba2aec47da1b4d47dc875272f" dmcf-pid="qGA9mPmjDL" dmcf-ptype="general">정현정 기자 iam@etnews.com</p> </section> </div> <p class="" data-translation="true">Copyright © 전자신문. 무단전재 및 재배포 금지.</p> 관련자료 이전 김재원 “친누나가 ‘네가 순록이를?’, 싱크로율 위해 4㎏ 감량”(윰세3)[EN:인터뷰①] 05-07 다음 '콘셉추얼 아이콘' 빌리, 정규 1집 쇼케이스 성료…독보적 정체성 활짝 05-07 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.