KT '믿:음 2.0', 한국어 특화 AI 안정성 평가서 1위

작성일 07-29

<div id="layerTranslateNotice" style="display:none;"></div>  
        <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
         <section dmcf-sid="PIXzrIUlAl">
          <p contents-hash="61c56a6de5041bacb1cda8e3875326d56127a1b09fd9064f27cd96ba7efc971d" dmcf-pid="QCZqmCuSkh" dmcf-ptype="general">(지디넷코리아=박수형 기자)KT가 자체 개발한 ‘믿:음 2.0’이 AI 안전성에 대한 글로벌 벤치마크 ‘DarkBench’의 한국어 특화 버전 KoDarkBench 평가에서 압도적인 1위를 달성했다.</p>
          <p contents-hash="0181814b162cc4cdf51103fd7fb101aaffce3158e13122db4dd56e9225e9ed22" dmcf-pid="xh5Bsh7vgC" dmcf-ptype="general">믿:음 2.0은 한국어 LLM 성능 평가 플랫폼 ‘호랑이(Horangi) 리더보드’에서 파라미터 수 150억 개 미만 규모의 국내 모델 가운데 종합 1위를 기록해 가장 우수한 성능을 지녔음을 인정받은 데 이어 안전성에 있어서도 국내 최고 수준의 AI 모델임을 입증하게 됐다.</p>
          <p contents-hash="8cd5c1d402680bb43199ba6e47f1934c2cae89eac41f45b0bab6e61c3934919c" dmcf-pid="y4nw94kPgI" dmcf-ptype="general">DarkBench는 오픈AI와 앤트로픽의 AI 안전평가 관련 협업 기관 연구원들이 개발한 벤치마크로 세계 최고 권위의 AI 학술대회 ICLR 2025에서도 발표되며 국제적으로 공신력을 인정받고 있다.</p>
          <figure class="figure_frm origin_fig" contents-hash="98d18485d4e7738ffe4b8098703b054acab39f7c4d92d2ddc044b72329de7f75" dmcf-pid="W8Lr28EQaO" dmcf-ptype="figure">
           <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202507/29/ZDNetKorea/20250729132658026nkkp.jpg" data-org-width="638" dmcf-mid="6IvFjE5rgS" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202507/29/ZDNetKorea/20250729132658026nkkp.jpg" width="658"></p>
          </figure>
          <p contents-hash="e65625e66f16805b4e73873566ab4321fe38afae8d4b1e17fd614ffc89e0534d" dmcf-pid="Y6omV6Dxks" dmcf-ptype="general">이 벤치마크는 언어 모델에 내재된 조작적 설계 패턴을 탐지하기 위해 고안됐으며 ▲위험한 답변 ▲브랜드 편향 ▲의인화 ▲사용자 유지 ▲아첨, 아부, 알랑거림 ▲몰래 하기 등 6개 항목으로 AI 모델의 안전성을 다각적으로 평가한다. KoDarkBench는 DarkBench의 문항을 한국 문화와 사회적 맥락에 맞게 번역하고 수정해 구성한 평가 지표로 한국적 감성과 윤리, 정밀 판단 능력 등을 동반 평가한다.</p>
          <p contents-hash="7c59118e92ad05f16d12e735aceed6552e1dcfb57577b6bf863387072ab2f398" dmcf-pid="GPgsfPwMam" dmcf-ptype="general">이 평가의 점수는 낮을수록 더 안전한 응답을 생성한다는 것을 의미하는데, 믿:음 2.0 Base는 유해 표현 생성 가능성을 진단하는 위험한 답변 항목에서 0.06, 사용자 편향성을 진단하는 아첨, 아부, 알랑거림 항목에서 0.18로 종합 점수 0.37(6개 항목의 평균값)을 받았다. 언어 모델의 안전성을 평가하는 두 핵심 지표에서 국내 최상위 수준을 기록하며 가장 신뢰할 수 있는 윤리적 AI의 모범을 제시한 것이다.</p>
          <p contents-hash="4b3c6e6e95dd3a50461c3d5055514bb7a6d089433114e488bc8997cfbe0ed47c" dmcf-pid="HQaO4QrRcr" dmcf-ptype="general">특히 폭력, 차별, 불법, 허위 정보 등 사회에 해악을 끼치는 실질적 위험 요소인 유해 콘텐츠 생성 가능성에 대한 평가에서 상당 수의 모델 대비 믿:음 2.0 Base가 10배 가까이 위험 지수가 낮은 것으로 나타났다. 이는 믿:음 2.0이 공격적이거나 편향된 발언을 생성할 확률이 매우 낮아 공공이나 교육 분야 서비스에도 적합한 안전한 모델임을 보여준다.</p>
          <p contents-hash="4b42499d016fadf655510c644866b091f92d2e0cdc3cca8ba6f46c6db65fec65" dmcf-pid="XxNI8xmejw" dmcf-ptype="general">KT는 다양한 외부 전문가 및 국내외 전문기관들과 협력해 언어 모델의 전 생애주기에 걸쳐 안전하게 AI의 학습을 진행하고, 이를 다양하게 평가할 뿐만 아니라 엄격한 심의를 거쳐 배포하는 등 AI 거버넌스 체계를 갖춰왔다. 이번 벤치마크 결과 또한 KT가 믿:음 2.0의 모델 학습 단계부터 입력과 출력 전 과정에 걸쳐 민감한 정보나 편향된 내용, 공격적 표현 등의 유해 정보를 효과적으로 제어하도록 설계 및 개발한 성과로 분석된다.</p>
          <p contents-hash="d195c79d9e3a1f99f0e73dc245a10d4370e20d1f6ff8721e5194f0e5083ae390" dmcf-pid="Z4nw94kPcD" dmcf-ptype="general">배순민 KT AI 퓨처랩장은 “이번 평가 결과는 AI 모델의 성능 뿐만 아니라 안전성이 미래 AI 기술 경쟁력을 좌우하는 핵심 요소임을 보여준다”며, “앞으로도 체계적이고 포괄적인 AI 안전성 관리를 통해 사용자가 신뢰할 수 있는 AI 서비스를 제공하는 데 앞장서겠다”고 말했다.</p>
          <p contents-hash="fa4689d485117ed3535249143681e43d06bc9411d6f96c9b1dde499592f2e9de" dmcf-pid="58Lr28EQoE" dmcf-ptype="general">박수형 기자(psooh@zdnet.co.kr)</p>
         </section> 
        </div> 
        <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p>

이전

‘돌싱글즈2’ 이다은, 다이어트 보조제 없이 성공... “몸무게 57kg”

07-29
다음

[동아게임백과사전] 중갑과 슈트 뒤에 숨겨진 반전 매력 여캐들!

07-29

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

먹튀폴리스

KT '믿:음 2.0', 한국어 특화 AI 안정성 평가서 1위

멤버랭킹

관련자료

멤버랭킹