'LG 엑사원' 수능수학 점수 논란…김종락 교수팀 "추론능력에 초점" 작성일 12-18 26 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">"특정모델 겨냥 아냐…공동연구 열려 있어"</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="BtFJOzOcR1"> <figure class="figure_frm origin_fig" contents-hash="01d6414e187890c76804cc802f0e9dfc8761dc24f9c6159164a68f5d90d64e95" dmcf-pid="bF3iIqIkR5" dmcf-ptype="figure"> <p class="link_figure"><img alt="LG AI연구원이 개발한 인공지능(AI) 거대 언어모델(LLM) 엑사원(EXAONE) 로고. LG 제공" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/18/dongascience/20251218145554948dwdl.jpg" data-org-width="482" dmcf-mid="qyvVaXaeRt" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/18/dongascience/20251218145554948dwdl.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> LG AI연구원이 개발한 인공지능(AI) 거대 언어모델(LLM) 엑사원(EXAONE) 로고. LG 제공 </figcaption> </figure> <p contents-hash="f951fbcc1e4ff104f8e02856939c818734013dcb15bc6add834ec2d18ba4b8c3" dmcf-pid="K30nCBCEnZ" dmcf-ptype="general">15일 김종락 서강대 수학과 교수팀이 발표한 연구결과에 따르면 국내외 인공지능(AI) 거대 언어모델(LLM) 10종에 수능 수학 문제를 풀게 했을 때 LG AI연구원이 개발한 국내 LLM '엑사원(EXAONE)'의 점수가 24점에 그쳐 성능을 둘러싸고 논란이 일었다.</p> <p contents-hash="54f160e05c348b941a0bca33c75028f05a689647de617d44fdc97e6e34429318" dmcf-pid="90pLhbhDdX" dmcf-ptype="general"> 다음 날인 16일 LG AI연구원은 수능 수학 문제 20개를 내부 기준으로 네 차례 평가한 결과 평균 88.75점을 기록했다며 김 교수팀의 연구결과를 "모델별 특성을 충분히 고려하지 못한 결과"라고 반박했다.</p> <p contents-hash="0294bef729195d150be482b8e43202eb3ffe4d333f33056277407420727018b3" dmcf-pid="2JiWBjB3JH" dmcf-ptype="general"> 18일 김종락 교수는 LG AI연구원 측의 반박에 대해 "특정 모델을 겨냥한 실험이 아니다"라며 "평가 초점은 정답률이 아닌 추론 능력"이라고 밝혔다. 이번 논란은 성능 우열의 문제가 아니라 평가 목적과 실험 맥락의 차이에서 비롯됐다는 설명이다.</p> <p contents-hash="eb463c1d58bb1244f0ca50c640535459054afa4355ba04aa3f78d1be8c808bd0" dmcf-pid="VinYbAb0MG" dmcf-ptype="general"> 김 교수팀은 "수행한 평가는 얼마나 많은 문제를 맞히느냐가 아니라 모델이 문제를 구조화하고 프로그래밍 도구인 파이썬을 활용해 계산을 수행한 뒤 그 결과를 다시 추론에 반영할 수 있는지에 초점을 맞췄다"고 밝혔다.</p> <p contents-hash="23e900bcbfce0243984c2ada235d53a2ef714d342138dd366e880a5f1fde5ea4" dmcf-pid="fnLGKcKpdY" dmcf-ptype="general"> LG AI연구원이 공개한 점수인 88.75점을 김 교수팀의 실험 결과에서 나온 점수와 직접 비교하긴 어렵다는 설명이다. 논술 문제 포함 여부와 점수 환산 방식, 시험 구성 자체가 다르기 때문이다.</p> <p contents-hash="8013dde57247913149db25c8d926913ecfb6ef4ac2e8a7d421f0099aec5faab0" dmcf-pid="4LoH9k9ULW" dmcf-ptype="general"> 김 교수팀은 "(LG AI연구원 실험과) 동일한 조건에서 제미나이(Gemini), 그록(Grok) 계열 모델은 약 92점, 챗GPT와 클로드(Claude) 계열 모델은 약 88점을 기록했다"며 "국내 모델만 불리하게 설계된 실험이 아니라는 증거"라고 밝혔다.</p> <p contents-hash="ec76c63070792ef38fa3eb79de8f7135b6337cec9f567e6ad585cdafc9821dbf" dmcf-pid="8ogX2E2uRy" dmcf-ptype="general"> 이어 자체 실험 파이프라인과 LG AI연구원의 내부 솔루션 결합 모델이 구조적으로 다를 수 있다는 점을 짚었다. 이미 출제된 수능 문제 특성상 LG AI연구원이 활용한 챗엑사원(ChatEXAONE)이 웹 검색을 통해 정답을 회수했을 가능성을 완전히 배제하기는 어렵다고 봤다.</p> <p contents-hash="24b3ae52890a41f296341fabbee83129e963ffdc31983853011f4edd9353ace4" dmcf-pid="6gaZVDV7nT" dmcf-ptype="general"> 김 교수팀은 "LG AI연구원 측이 제기한 '모델 특성 차이' 주장 자체를 부정하지는 않는다"며 "어느 한쪽의 성능을 문제 삼기보다는 실험 환경 차이가 결과 해석에 영향을 줄 수 있다는 점을 지적한 것"이라고 말했다.</p> <p contents-hash="096f9622ad9042c7ec06206e7d5613834a70591b8cd22d24cc37b8fd76ba1c36" dmcf-pid="PaN5fwfzdv" dmcf-ptype="general"> 김 교수팀은 "우리의 연구결과는 국내 AI가 뒤처졌다는 결론을 내리기 위한 것이 아니라 LLM 경쟁의 축이 정답률 중심에서 추론 구조와 도구 활용 능력으로 이동하고 있음을 보여주는 사례"라며 후속 실험을 통한 공동 검증 의지가 있다고 밝혔다.</p> <p contents-hash="e1421212d949a0a4c5fd0b31a80e97b5e1d44c202a03b4671718a1ae67bee7da" dmcf-pid="QNj14r4qdS" dmcf-ptype="general"> 김 교수팀의 실험 파이프라인과 평가 방식은 추후 오픈소스 플랫폼인 '깃허브(GitHub)'를 통해 공개될 예정이다. 김 교수팀은 "각 모델이 어떤 환경에서 강점을 보이는지에 대한 건설적인 논의가 필요하다"며 "업계와 학계가 함께 검증하고 발전 방향을 논의할 수 있도록 하겠다"고 덧붙였다.</p> <p contents-hash="c7b7edbb46015e68d7f2149cffc9b045a574eed02fa17e5873d3ff0414ba2214" dmcf-pid="xjAt8m8Bdl" dmcf-ptype="general">[이병구 기자 2bottle9@donga.com]</p> </section> </div> <p class="" data-translation="true">Copyright © 동아사이언스. 무단전재 및 재배포 금지.</p> 관련자료 이전 1년간 게임 이용률 감소…한콘진, 2025 게임이용자 실태조사 발간 12-18 다음 북중미 월드컵 우승하면 739억 원…출전만 해도 최소 155억 원 12-18 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.