아크릴 의료 AI '아름.H', 의사 국시 벤치마크서 96.78% 달성 작성일 04-14 14 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">클로드 오퍼스 4·GPT-5.1·제미나이 2.5 프로 제쳐</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="zcgzxczty0"> <figure class="figure_frm origin_fig" contents-hash="e3a1d385d5fa6394b96e30d93a8659ffe482b66c4d7761195756a6a80c49bbf4" dmcf-pid="qkaqMkqFv3" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202604/14/552796-pzfp7fF/20260414171000557elwk.jpg" data-org-width="640" dmcf-mid="7JblFflwSp" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202604/14/552796-pzfp7fF/20260414171000557elwk.jpg" width="658"></p> </figure> <p contents-hash="6cb4df013e26449a5bd4e87bd1f5a71c6a8686513c6afb5a800f0abffd83c042" dmcf-pid="BENBREB3hF" dmcf-ptype="general">[디지털데일리 구아현기자] 아크릴이 자체 개발한 의료 특화 파운데이션 모델 '아름.H(ALLM.H)'가 한국 의사 국가시험(KMLE) 기출문항 기반 의료 AI 평가 벤치마크인 'KorMedMCQA Doctor Test'에서 96.78%의 정답률을 기록해 현존 최고 성능을 달성했다고 14일 밝혔다.</p> <p contents-hash="6e3beab3835c2cc943354302b2d4c011c2ebf1d9a5ea388d5cdbb145ab67e375" dmcf-pid="bDjbeDb0ht" dmcf-ptype="general">이는 앤트로픽의 '클로드 오퍼스 4(96.55%)', 오픈AI의 'GPT-5.1(90.11%)', 구글의 '제미나이 2.5 프로(90.8%)'를 모두 웃도는 수준이다. 아크릴 측은 국내 의료 특화 AI 모델의 경쟁력을 입증한 사례라고 설명했다.</p> <p contents-hash="71f087d7fafd2a549ae7efdba11eab674beb809025aa7df5b567fe2c1bf9044d" dmcf-pid="KwAKdwKpW1" dmcf-ptype="general">오픈소스 의료 AI 분야에서도 주목할 만한 성과다. ALLM.H는 서울대병원이 개발한 오픈소스 의료 모델 'HARI(89.2%)'를 7.58%포인트 앞섰다. 특히 K-Med.ai가 실제 KMLE에서 달성한 96.4%에 비견되는 성능을 72B 이상의 초대형 모델이 아닌 31B 규모의 경량 오픈소스 모델로 구현했다는 점이 업계의 주목을 받고 있다.</p> <p contents-hash="cba731ea275e682ea6c13375062a304b156a59bbb1ff3e7c322449a1ce01bbcd" dmcf-pid="9rc9Jr9Ul5" dmcf-ptype="general">아크릴은 단순히 모델 규모를 키우는 방식이 아닌, 고품질 데이터 구성과 정교한 학습·추론 파이프라인 설계를 통해 특화 분야 성능을 높였다고 설명했다. ALLM.H는 구글의 최신 오픈소스 모델 '젬마 4(31B)'를 기반으로 국내 최초 파인튜닝을 거쳐 개발됐으며, 2022년부터 2024년까지의 KMLE 공식 기출 435문항으로 구성된 KorMedMCQA Doctor Test에서 성능을 검증했다.</p> <p contents-hash="bea3cbb8542149a5435225e0bb6ac0bdada35ac32cce17f1e612e4bb827d6069" dmcf-pid="2mk2im2uhZ" dmcf-ptype="general">ALLM.H는 아크릴이 독자 개발한 산업 특화 파운데이션 모델 패밀리 ALLM(Acryl LLM)의 첫 결과물로, 의료·헬스케어 분야에 특화해 개발됐다. 아크릴은 2024년 Weights & Biases(W&B)가 운영하는 한국어 LLM 리더보드 '호랑이 벤치(Open Ko-LLM Leaderboard)'에서 오픈소스 부문 1위를 기록하며 파인튜닝 역량을 입증한 바 있다.</p> <p contents-hash="6095d35defa79b41b95ec2a50f73d2cf82684da74f8ba3c55f448eeaa660b3fe" dmcf-pid="VZWLsZLxyX" dmcf-ptype="general">아크릴은 ALLM.H를 단일 모델에 그치지 않고 진료과별 특성을 반영한 패밀리 구조로 확장할 계획이다. ALLM.H를 기반으로 각 전문 진료과에 최적화된 AI 생태계를 구축하고 후속 모델들의 성능과 벤치마크 결과도 순차적으로 공개할 예정이다.</p> <p contents-hash="d31d0c0ab5186c49ec839d9664d657418bad0fd33965be02ad56a68b5e6eb7ca" dmcf-pid="f5YoO5oMTH" dmcf-ptype="general">ALLM.H는 현재 아크릴이 수행 중인 보건복지부·과학기술정보통신부 주관 '닥터앤서 3.0'과 'K-ARPA' 사업을 기반으로 국내 대형 병원 실증에 돌입할 예정이다. 연세의료원, 경북대학교병원 등 협력 병원을 중심으로 의료진의 임상 의사결정 지원, 의료 데이터 분석, 전문 진료과 상담 보조 등에 활용된다. 온프레미스 방식으로 배포돼 환자 데이터 보안도 확보할 방침이다.</p> <p contents-hash="f119ecf802c341783d009ba182a5589eb1ce3d865e87ad3f7a55e93172ee1939" dmcf-pid="41GgI1gRSG" dmcf-ptype="general">박외진 아크릴 대표는 "ALLM.H는 대규모 모델 학습·평가 인프라와 LLM 평가 플랫폼 '조나단(Jonathan)'을 통해 축적한 모델 최적화 노하우가 결합된 결과물"이라며 "31B 규모 모델로 클로드 오퍼스 4와 GPT-5.1을 넘어서는 성능을 달성한 것은 모델의 크기보다 데이터 전략과 학습 파이프라인 설계가 핵심이라는 점을 보여준다"고 말했다. 이어 "이번 특화 파인튜닝 기술은 향후 조나단 플랫폼에 탑재돼 금융, 법률, 제조 등 다양한 산업 도메인으로 확장될 예정"이라고 덧붙였다.</p> </section> </div> <p class="" data-translation="true">Copyright © 디지털데일리. All rights reserved. 무단 전재 및 재배포 금지.</p> 관련자료 이전 韓, AI 성장률 세계 1위지만…내실은 '빈약' 04-14 다음 민주당 KT ‘토탈영업’ 원대복귀 환영 기자회견 연다 04-14 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.