오픈AI의 반격...“국제 수학 올림피아드서 금메달 수준 점수”

작성일 07-20

<div id="layerTranslateNotice" style="display:none;"></div>  <strong class="summary_view" data-translation="true">내부서 실험중인 비공개 추론 모델 활용<br>IMO 2025서 42점 만점 중 35점 기록해<br>인간과 동일한 시간 주어진 상황서 장시간 추론<br>AI 고전해온 영역...다른 모델은 정확도 10~30%</strong> 
        <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
         <section dmcf-sid="8r4bc3Q0vW">
          <figure class="figure_frm origin_fig" contents-hash="a2958c92ac5404faf7fe18d429a9625cf2f996078939e3fe4d6796b5ffbb14f3" dmcf-pid="6AbUoXVZvy" dmcf-ptype="figure">
           <p class="link_figure"><img alt="오픈AI가 내부적으로 실험하고 있는 비공개 추론 거대언어모델(LLM)이 국제 수학 올림피아드(IMO) 2025에서 금메달에 해당하는 성적을 거뒀다. [출처 = 알렉산더 오픈AI 연구과학자 X]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202507/20/mk/20250720135101905awed.png" data-org-width="700" dmcf-mid="465W8O3ISY" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202507/20/mk/20250720135101905awed.png" width="658"></p>
           <figcaption class="txt_caption default_figure">
            오픈AI가 내부적으로 실험하고 있는 비공개 추론 거대언어모델(LLM)이 국제 수학 올림피아드(IMO) 2025에서 금메달에 해당하는 성적을 거뒀다. [출처 = 알렉산더 오픈AI 연구과학자 X]
           </figcaption>
          </figure>
          <div contents-hash="5847aea8c1fa7d86da6925e5260f9edf51bff9595bd12ef1c8e1635282a5c080" dmcf-pid="PcKugZf5hT" dmcf-ptype="general">
           오픈AI의 인공지능(AI) 모델이 국제 수학 올림피아드에서 인류의 지성을 따라잡는 기념비적인 성과를 거뒀다.
          </div>
          <p contents-hash="b74cbbdf956c6eaafa4cf4feaf4e50b1516bb131b21ac559af725c94e7b6e274" dmcf-pid="Qk97a541Sv" dmcf-ptype="general">스타트업 윈드서프 인수 무산, 잇따른 인재 유출로 위기설이 나오고 있는 상황에서 오픈AI가 압도적인 AI 성능으로 건재함을 보여준 셈이다.</p>
          <p contents-hash="9dfa949e907485ef0007ee70b2ed4ac1ce34a96cc44f852adc31a62157ba0cc2" dmcf-pid="xE2zN18tWS" dmcf-ptype="general">샘 올트먼 오픈AI CEO는 19일(현지시간) 자신의 X(엑스)를 통해 이같은 실험 결과를 공유하며 “범용 추론 모델로 올해 국제 수학 올림피아드(IMO 2025)에서 금메달 수준의 성능을 달성했다”라고 밝혔다.</p>
          <p contents-hash="707f48bba9eec07dc5b94ff28d96899eea0d09fd1e365910d51c20b445295237" dmcf-pid="yzOE0Llovl" dmcf-ptype="general">이어 “오픈AI를 처음 시작했을 때만 해도 이는 꿈같은 이야기였다. 이는 지난 10년 동안 AI가 얼마나 발전했는지를 보여주는 중요한 지표”라고 이번 성과의 의의를 설명했다.</p>
          <p contents-hash="765fb45425526ca580136257626469611562aa0b3a5afc7b49b8354d20f8af69" dmcf-pid="WqIDpoSghh" dmcf-ptype="general">해당 결과는 오픈AI의 연구과학자인 알렉산더 웨이가 이끄는 소규모 팀이 내부에서 실험 중인 추론용 거대언어모델(LLM)을 활용한 것이다.</p>
          <p contents-hash="9ac3f000c55aca8101501724617e8e8eae94601a1b4b750ca550e5bf342b7f44" dmcf-pid="YBCwUgvaSC" dmcf-ptype="general">IMO는 1959년부터 진행되고 있는 권위 있는 올림피아드로, 각국을 대표하는 20세 미만 학생들이 참가한다. 단순히 공식을 암기해 풀 수 있는 문제들이 아닌 수학적인 사고와 창의적인 아이디어를 요구하는 것이 특징이다.</p>
          <p contents-hash="0d7e0e9eed723a29b840c42b53aef82d434e241be43cceb0d8debfb5fe76ee16" dmcf-pid="GbhruaTNCI" dmcf-ptype="general">오픈AI에 따르면 이번 테스트는 인간 응시자들과 똑같은 조건으로 진행됐다. 총 6문제로 구성된 IMO는 2일에 걸쳐 하루 4시간 30분 동안 3문제씩 푸는 방식이다.</p>
          <p contents-hash="fd4cdf4c36face6d921cf74fb778b440fea9a4e108c987907283caed06a16d29" dmcf-pid="HKlm7NyjlO" dmcf-ptype="general">오픈AI의 모델은 6문제 중 5문제를 풀면서 42점 만점에 35점을 기록하며 금메달권에 해당하는 기록을 세웠다.</p>
          <p contents-hash="bd99c52741b1318f0583543203ff95b7d620b639d2aa591043040c364e194f5e" dmcf-pid="X9SszjWATs" dmcf-ptype="general">올해 IMO에서는 만점자 6명이 나오면서 아직은 인간이 AI보다 더 나은 성적을 보였지만, 급속도로 발전하고 있는 LLM의 성능이 인간의 지성에 얼마나 근접했는지를 보여주는 상징적인 사건이라는 평가다.</p>
          <p contents-hash="a8f6bd7abe9088b9b915665862732cb271460334a180844969ba289915b0fdb6" dmcf-pid="Z9SszjWASm" dmcf-ptype="general">그동안의 LLM들은 IMO에서 금메달권은 커녕 은·동메달권에도 거의 도달하지 못했다.</p>
          <p contents-hash="10d21e407495abe3adc1cf56cf3b1de85d0a7a16cab4f3e1046aac9d6ceff72c" dmcf-pid="52vOqAYcSr" dmcf-ptype="general">구글 딥마인드의 ‘알파프루프(AlphaProof)’와 ‘알파지오메트리(AlphaGeometry 2)’가 지난해 은메달권의 성적을 기록한 바 있으나, 해당 모델들은 수학 영역에만 특화시킨 모델이었다.</p>
          <p contents-hash="adfc7fc162beaf83fe1b99c30ff7ace85f649f0c3e0aad4553c6c9e7aaee4589" dmcf-pid="1VTIBcGklw" dmcf-ptype="general">노암 브라운 오픈AI 연구과학자는 “이전에 AI가 바둑, 포커 등에서 보여줬던 성과들은 연구자들이 해당 특정 영역만 AI가 마스터할 수 있도록 수년간 훈련시킨 결과”라며 “하지만 이번 모델은 IMO에 특화시킨 모델이 아니며, 새로운 방식의 실험적인 범용 기술을 결합한 추론 LLM”이라고 설명했다.</p>
          <p contents-hash="d4504aa9f0206d35d7597273f54ed462331b07525c302b19aa691cc8c6fd9809" dmcf-pid="tfyCbkHEhD" dmcf-ptype="general">주요 모델들의 수학적 분야 성과를 추적하는 스위스 취리히 연방공대(ETH 취리히)의 매스아레나(MathArena)에 따르면 구글의 제미나이 2.5 프로, xAI의 그록4, 딥시크의 R1 등 전 세계서 손꼽히는 모델들 모두 올해 IMO 2025에서 동메달권에도 들지 못했다.</p>
          <p contents-hash="0ac11614a1f08006f34a3cea6ca5bff12394cb485469aa6d2af6e85db2a574b7" dmcf-pid="F4WhKEXDWE" dmcf-ptype="general">오픈AI가 이같은 비약적인 성과를 거둘 수 있게 한 구체적인 비결은 공개되지 않았다.</p>
          <p contents-hash="711ed15f96373dd468c40e11bd0b1c8d3a246e6392cd426bffd3efaa1f4e56a9" dmcf-pid="38Yl9DZwCk" dmcf-ptype="general">브라운 연구과학자는 “검증하기 어려운 작업을 LLM이 훨씬 더 잘 수행할 수 있는 새로운 기술을 개발했다”라며 “o1(기존 추론 모델)은 수 초 동안 생각하고, ‘딥 리서치’ 기능은 수 분의 시간을 들이지만 이 모델은 수 시간 동안 생각한다”라고 설명했다.</p>
          <p contents-hash="3a1a2d502dc2382802db593ec553566b8751b91597944fd7c3c5d1a0245ce6a6" dmcf-pid="06GS2w5rvc" dmcf-ptype="general">한편 이번 결과는 오픈AI가 공식 출시하지 않은 비공개 실험용 모델로 진행되다 보니 제3자 검증을 거친 상태는 아니다. 매스아레나는 이에 대해 “이 분야에서 가파른 진전을 보게 되어 기쁘게 생각하며, 해당 모델이 출시되어 공개 벤치마크를 통해 독립적인 평가가 가능해지기를 기대한다”라고 밝히기도 했다.</p>
         </section> 
        </div> 
        <p class="" data-translation="true">Copyright © 매일경제 &amp; mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지</p>

이전

"머스크도 받았다"…美 '배아 유전체 분석 슈퍼 아기' 논란 확산

07-20
다음

벌써 우승컵이 6개 ... 세계 1위 안세영, 왕즈이 꺾고 일본 오픈 제패

07-20

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

먹튀폴리스

오픈AI의 반격...“국제 수학 올림피아드서 금메달 수준 점수”

멤버랭킹

관련자료

멤버랭킹