초지능 시대 '눈앞'…AI가 인간 수학천재 따라잡았다 [AI 엑스파일] 작성일 07-20 12 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="uGpZaLloSM"> <figure class="figure_frm origin_fig" contents-hash="7e28dd1a41830d998f7c87c4a9cf035cd8929980573cdb59e184a003762b069f" dmcf-pid="7HU5NoSgyx" dmcf-ptype="figure"> <p class="link_figure"><img alt="ChatGPT Image" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202507/20/ked/20250720004057498hibi.jpg" data-org-width="1200" dmcf-mid="4UC5LJIiWI" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202507/20/ked/20250720004057498hibi.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> ChatGPT Image </figcaption> </figure> <p contents-hash="53d4ebd985ab07e00c039e5566622484976b7adc9ec7528225a779276f6f9532" dmcf-pid="zXu1jgvaCQ" dmcf-ptype="general"><br></p> <figure class="figure_frm origin_fig" contents-hash="f5384709337b20a96ae01c53e82a903e895dfca604fbc4f505198855b787f688" dmcf-pid="qZ7tAaTNyP" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202507/20/ked/20250720004058847ptem.jpg" data-org-width="681" dmcf-mid="8sv3NoSgyO" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202507/20/ked/20250720004058847ptem.jpg" width="658"></p> </figure> <p contents-hash="2c81b52bdcc0686879158a6dd562f6ba0ff240941c7d02ccd0db1a5e354de1c3" dmcf-pid="B5zFcNyjT6" dmcf-ptype="general"><i>오늘 오픈AI는 많은 이들이 수년 후에나 가능할 것으로 여겼던 중요한 이정표를 달성했습니다. 일반 추론 거대언어모델(general reasoning LLM)이 2025년 국제수학올림피아드(IMO)에서 인간과 동일한 시간 제한에 어떤 도구의 도움도 없이 금메달 수준의 성과를 낸 것입니다. 이는 언뜻 들어도 대단한 일이지만 실제 그 의미는 헤드라인(금메달 수준 성과 달성)보다 훨씬 큽니다.<br>(Today, we at OpenAI achieved a milestone that many considered years away: gold medal-level performance on the 2025 IMO with a general reasoning LLM—under the same time limits as humans, without tools. As remarkable as that sounds, it’s even more significant than the headline)<br>-지난 19일 소셜미디어X에서 노암 브라운</i></p> <p contents-hash="0e0a0b267d1a8711ac4054ed16e891b3f5dac17b79a68f3c20affa4c3d469ead" dmcf-pid="b1q3kjWAC8" dmcf-ptype="general"><strong><span> 노암 브라운은 누구</span></strong></p> <figure class="figure_frm origin_fig" contents-hash="30193fc930482fa5e187fd3f4dacacb3e6c54353fb378a7999682c68e71f8345" dmcf-pid="KtB0EAYch4" dmcf-ptype="figure"> <p class="link_figure"><img alt="www.linkedin.com/in/noam-brown-8b785b62/" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202507/20/ked/20250720004100096zybu.jpg" data-org-width="418" dmcf-mid="6U5bmDZwys" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202507/20/ked/20250720004100096zybu.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> www.linkedin.com/in/noam-brown-8b785b62/ </figcaption> </figure> <p contents-hash="b1cf714fd7fef423f0f20214f82cfedc273045ed55fc6e89cd0664ce1fd78de9" dmcf-pid="9JcLpFP3hf" dmcf-ptype="general">오픈AI의 핵심 연구자. 러트거스대학교 수학 및 컴퓨터공학 학사, 카네기멜런대학교에서 로봇공학 석사와 컴퓨터공학 박사 학위를 받았다. 오픈AI에서 AI의 추론 능력, 다중 에이전트 환경 등에 대한 연구를 이끌고 있다. 메타에서 'CICERO'라는 전략 보드게임 디플로머시에서 인간 수준의 실력을 가진 AI를 공동 개발한 경험도 있다.</p> <p contents-hash="9af656da7212f9d7f88e04781261a8be8bc16900db6057fe13b7e28db35ffa1a" dmcf-pid="2ikoU3Q0TV" dmcf-ptype="general"><strong><span> 노암 브라운이 하고 싶은 얘기는</span></strong></p> <p contents-hash="81723b7c5c0b95c393efeef4a637aa2ebc0a723c0c8caa58522ecd62784f4dae" dmcf-pid="VnEgu0xpy2" dmcf-ptype="general">오픈AI가 개발 중인 비공개 일반 추론 LLM이 2025년 국제수학올림피아드(IMO) 공인 문제 6개 가운데 5개를 풀어 42점 만점에 35점을 획득했다. ‘금메달 커트라인’을 넘는 수준이다. 이번 테스트는 인간 참가자와 동일한 조건(4.5시간 세션 2회, 도구나 인터넷 없이, 공식 문제 문장만 사용)에서 이뤄졌다.</p> <p contents-hash="9b6aa85c12ed19a72351ced03a2b5a623c448a62e194a4ed2312eda43541e959" dmcf-pid="fLDa7pMUS9" dmcf-ptype="general">IMO는 세계 최고 수준의 고등학생 수학 경시대회다. 문제는 창의적이고 복잡한 증명을 요구한다. AI가 이 수준에 도달한 것은 불과 몇 년 전만 해도 '수년 후에나 가능할 것'으로 예상됐다. 지난해 구글 딥마인드의 AI인 'AlphaProof'는 IMO에서 은메달 수준(28점)을 달성했다. 하지만 이 AI 모델은 IMO 전용 모델이었고, 도구를 사용했다.</p> <p contents-hash="3aa533849a43c03c47db3c285e2d1b1ad316de02b7a2fdc5e01f8960993f7c04" dmcf-pid="4owNzURuvK" dmcf-ptype="general">노암 브라운은 19일 자신의 링크트인 계정에서 “일반적으로 바둑·게임(도타2), 포커, 전략 보드게임(디플로머시)에서 이런 성과의 경우에는 하나의 좁은 영역을 마스터하고 그 외에는 거의 학습하지 않는다. 이런 AI를 만드는 데도 수년이 걸린다. 그러나 이번 AI는 IMO(수학) 전용 모델이 아니다. 새로운 실험적 범용 기술을 통합한 추론 LLM이다"고 설명했다.</p> <figure class="figure_frm origin_fig" contents-hash="92d7e31179603eff9c215e1a9adf13b208c17c965c51822a2a8a30a45919c3e3" dmcf-pid="8grjque7Tb" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202507/20/ked/20250720004101331veef.jpg" data-org-width="827" dmcf-mid="PVHs2bLKhm" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202507/20/ked/20250720004101331veef.jpg" width="658"></p> </figure> <p contents-hash="6ad0bf883fe7c6cecf688030ddadf325f53fdf37f6fcba977a48e29ebe8f6100" dmcf-pid="6amAB7dzSB" dmcf-ptype="general">바둑AI '알파고' 등 과거 AI가 인간과 비슷하거나 넘어섰다는 성과는 특정 분야에 특화된 AI가 달성한 것이다. 이번 모델은 새로운 범용 기술을 적용해 광범위한 응용 가능성을 열었다는 평가다. 이는 AI가 수학뿐만 아니라 다른 복잡한 문제(과학, 엔지니어링 등)에도 적용해 평균 인간보다 뛰어난 결과를 낼수 있다는 것을 뜻한다. </p> <p contents-hash="ca91ff0ec7cc820feec763e803f4e9918afcc2c40a631985932babcc3b2f0a36" dmcf-pid="PNscbzJqTq" dmcf-ptype="general">쉽게 얘기하면 AI가 '입시 학원'에 가지 않고 스스로 공부한 일반 지식으로 IMO 문제를 풀었다는 것이다. 과거 AI들은 특정 문제만 풀도록 훈련됐지만 이번엔 범용(다양한 일에 쓸 수 있는) 모델이다.</p> <p contents-hash="2384ca6814b426a023f8734a3f2d791a3e91692d86fe5e2c2946d23f752d9f0b" dmcf-pid="QjOkKqiBvz" dmcf-ptype="general">노암 브라운은 “우리는 LLM가 검증하기 어려운 작업을 훨씬 더 잘 수행할 수 있도록 새로운 기술로 개발했다. IMO 문제는 이에 대한 완벽한 도전이었다. 답안지의 페이지 길이는 길었고 전문가가 채점하는 데 몇 시간이 걸린다. 이 모델은 '오랫동안' 생각한다. 오픈AI의 다른 AI 모델 'o1'은 몇 초 동안 생각한다. 몇 분 동안 심층 조사한다. 이번 모델은 몇 시간 동안 생각한다. 중요한 것은 사고가 더 효율적이라는 것이다"고 설명했다. </p> <p contents-hash="5125d26ecb5a74529642269b1c451777896847bc7a49fabb33a477bc2dcb75bb" dmcf-pid="xAIE9BnbW7" dmcf-ptype="general">IMO 문제는 이런 식이다. "임의의 자연수 n에 대해 특정 수열의 합이 어떻게 되는지 증명하라'. 답은 숫자가 아니라 여러 페이지에 걸친 논리적 설명(증명)이다. 이번 AI는 이걸 인간처럼 써서 제출했다. 이는 AI가 장시간 창의적 사고를 유지하며 인간 전문가가 몇 시간 검토해야 할 증명을 생성할 수 있다는 것을 의미한다. </p> <figure class="figure_frm origin_fig" contents-hash="9be923a97a0193ad2b9c773ae5b44af513f315763037a063a0f993276d4b0200" dmcf-pid="yUVzsw5ryu" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202507/20/ked/20250720004102650migz.jpg" data-org-width="805" dmcf-mid="Qt7GdMrRSr" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202507/20/ked/20250720004102650migz.jpg" width="658"></p> </figure> <p contents-hash="df56dd1f37241ded32eef670b2c94066d6655e15c543727398fbe7f6f4887f8b" dmcf-pid="WufqOr1mhU" dmcf-ptype="general"><br>노암 브라운은 또 "특히 수학 분야에서 AI의 발전이 얼마나 빨랐는지 생각해 볼 가치가 있다. 2024년에는 AI 연구소는 초등학교 수학(GSM8K)을 모델 평가로 사용했습니다. 그 이후에 우리는 고등학교의 'MATH'를 벤치마크를 포함시켰고 다음에는 AIME(미국 고등학생 수학경시대회를 참고한 벤치마크)를 달성했고, 지금은 IMO 금메달에 도달했다"고 밝혔다.</p> <p contents-hash="7cb1fe2665a5ceedc6d5358d83cef428128899efffdb46720a3bd1079a2fe4da" dmcf-pid="Y74BImtsWp" dmcf-ptype="general">이는 AI가 인간의 개입 없이 자율적으로 한 번에 처리할 수 있는 작업의 사간적 범위 또는 깊이를 뜻하는 '시간 지평(time horizon)에서 발전했다는 것을 의미다. 예를들어 초등 문제(0.1분) → 고등 문제(1분) → AIME(10분) → IMO(100분)으로 개선됐다.</p> <p contents-hash="0ad60430a8dd2ec22728f18eee33cd6889e3c85edc7cc71623514d2e63b2bfb7" dmcf-pid="Gz8bCsFOh0" dmcf-ptype="general">노암 브라운은 "최근의 AI 발전이 빠른 만큼 이런 추세는 계속될 것으로 충분히 예상한다. 중요한 것은 우리가 과학적 발견에 실질적으로 기여하는 AI에 가까워졌다는 것이다. 인간 최고의 성과보다 약간 낮은 AI와 약간 높은 AI 사이에는 큰 차이가 있다"도 설명했다. 일부에선 이번 AI의 성과에 대해 어떤 분야든 인간과 비슷하거나 넘어서는 초지능에 가까웠졌다는 분석도 나온다.</p> <p contents-hash="208bbc5f0ad845dd68510c796a867f5738c3abedfb0b7716cc9bcace960fda12" dmcf-pid="H5zFcNyjl3" dmcf-ptype="general"><strong><span> 충격적인 성과를 냈지만</span></strong></p> <p contents-hash="347d014ecb3908cab59317b1e1c536dbc26f45e3a069f371c6efe6d88b307407" dmcf-pid="X1q3kjWACF" dmcf-ptype="general">하지만 이번 성과는 학술적 검증·공개 재현 절차가 뒤따라야 한다는 의견도 나온다. 점수 산정은 공개됐지만 아직 제3자 확인이 완료되지 않았다. AI가 테스트 문제를 미리 학습했는지도 확인이 필요하다. 2025년 IMO 본선 문제는 이달 15~16일 대회 직후 공개됐다. 해당 정보가 AI 모델 학습 데이터에 포함되지 않았는지, 문제 누출 가능성이 없는지 데이터·로그 확인을 확인 해야 한다. <br></p> <figure class="figure_frm origin_fig" contents-hash="2b52c59ab51e53ec335e0ab6b43912e8582cee6f9c6be1f8413f9baf9079b341" dmcf-pid="ZtB0EAYclt" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202507/20/ked/20250720004103888hpuk.jpg" data-org-width="828" dmcf-mid="3YhjU3Q0hn" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202507/20/ked/20250720004103888hpuk.jpg" width="658"></p> </figure> <p contents-hash="bec55f32f85d988130b310cfbd1e04176dd6d47d1389c977a11ad6df70c618d6" dmcf-pid="5FbpDcGkh1" dmcf-ptype="general">지금은 오픈AI의 내부 실험 결과만 있다. 비슷한 수준의 다른 대회에서 동일 기법이 반복적으로 금메달권을 달성해야 능력을 제대로 입증할 수 있다. 일반 LLM 성과라는 주장도 검증이 더 필요하다. 현재 오픈AI의 발표는 수학 한 영역만 다룬다. 물리, 화학 등 다른 분야 벤치마크에서 비슷한 성과가 확인돼야 '범용'이라는 수식이 타당하다는 주장이다. 실제로 어떤 태스크에 얼마만큼 파인튜닝했는지 공개되지 않으면 범용 여부를 판단할 수 없다.</p> <p contents-hash="ba71d1f04e56dc4f422582695ebabe6d63761303497f6b641ed57000a8cb4520" dmcf-pid="13KUwkHES5" dmcf-ptype="general">상용화 가능성도 따져봐야 한다는 의견도 있다. 이번 성과를 내기 위해 오픈AI는 얼마나 많은 컴퓨팅 자원을 사용했는지 공개하지 않았다. 만약 엄청난 규모의 자원을 썼다면 실용성에 제한이 있을 수 있다.</p> <p contents-hash="270ceba7deb51c9e48186a8529f275949f29b5684dc07414b76d2caff920f213" dmcf-pid="t09urEXDCZ" dmcf-ptype="general">그래도 아직 인간 최고 지능이 더 낫다는 주장도 있다. 오픈AI의 이번 신규 AI 모델은 6번 문제 풀기는 실패했다. 가장 난도 높은 것으로 알려졌다. '금 커트라인'은 넘겼지만 만점과는 아직 차이가 있다. IMO에선 한국도 최근데 꾸준히 만점자가 나오고 있다. 아직 인간 최상위권과의 격차가 있다는 뜻이다. 아직 올해· IMO 결과는 나오지 않았다.</p> <div contents-hash="51b5aef19ba9021618d1fe53aebdecc990ff2b4f4be6d5230f0a317fc461b726" dmcf-pid="Fp27mDZwhX" dmcf-ptype="general"> <div> [AI 엑스파일은 글로벌 AI 산업, 학계 등의 최전선에서 AI를 고민하는 이들의 얘기를 전달합니다. 색다른 AI 이슈를 편하게 보시려면 기자 페이지를 구독해 주세요] </div>김주완 기자 kjwan@hankyung.com <br> </div> </section> </div> <p class="" data-translation="true">Copyright © 한국경제. 무단전재 및 재배포 금지.</p> 관련자료 이전 '싱글맘' 정가은, 생활고 근황 고백 "케이크 2개 못 사"('동치미') 07-20 다음 [체험기] '명말: 공허의 깃털'을 5일 먼저 즐겨봤습니다 07-20 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.