"네이버보다 낫다"…카카오가 꺼낸 AI 모델에 '깜짝' 작성일 07-24 9 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">프롬 스크래치 방식으로 개발<br>MoE 모델 국내 첫 오픈소스 공개</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="XkjiQ3Q0lV"> <figure class="figure_frm origin_fig" contents-hash="85e30338ba2f8dccc232655c7b78f7e550de2bf3a8e34c3407d5983eeefa0d47" dmcf-pid="ZEAnx0xpW2" dmcf-ptype="figure"> <p class="link_figure"><img alt="경기 성남시 판교에 있는 카카오 본사에서 직원들이 출입문을 나서고 있다.(사진=신경훈 기자)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202507/24/ked/20250724115348298ntbb.jpg" data-org-width="1200" dmcf-mid="Yqb9uluSW8" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202507/24/ked/20250724115348298ntbb.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 경기 성남시 판교에 있는 카카오 본사에서 직원들이 출입문을 나서고 있다.(사진=신경훈 기자) </figcaption> </figure> <p contents-hash="ea5b164ac764f83354456874149e954e5371e062c059afb86aa6061a56f4b857" dmcf-pid="5DcLMpMUC9" dmcf-ptype="general"><br>카카오가 국내에서 처음으로 경량 멀티모달 언어모델과 전문가 기반 혼합(MoE) 모델을 오픈소스로 공개했다.</p> <p contents-hash="bd423f184d58eccb1a888e1af1ff8f6e28b7e033f9cbac7d70594b8036be3c37" dmcf-pid="1wkoRURuyK" dmcf-ptype="general">카카오는 24일 허깅페이스를 통해 이미지 정보 이해와 지시 이행 능력을 갖춘 경량 멀티모달 언어모델 '카나나-1.5-v-3b'와 MoE 언어모델 '카나나-1.5-15.7b-a3b'를 오픈소스로 공개했다.</p> <p contents-hash="cc5bddb763c929d68a200ecfb5fa2fbe09f8149ef4f3c3e6cccffda53c7647ae" dmcf-pid="trEgeue7yb" dmcf-ptype="general">지난 5월 공개한 언어모델 카나나-1.5 4종에 이어 두달 만이다. 카카오는 정부가 추진하는 ‘독자 AI 파운데이션 모델 프로젝트’에 참여했다. 자체 모델 개발 역량과 카카오톡 등의 대규모 서비스 운영 경험 등을 토대로 전 국민의 AI 접근성을 높이고 국가 AI 경쟁력을 강화하는데 기여한다는 방침이다.</p> <p contents-hash="09f01fb2fa098ad8bc4e13855d872a94076659d360c7b6a2b3f1ac2254a245fe" dmcf-pid="FEAnx0xpyB" dmcf-ptype="general">카나나-1.5-v-3b는 텍스트뿐만 아니라 이미지 정보도 처리할 수 있는 멀티모달 언어모델이다. 지난 5월 말 오픈소스로 공개한 카나나 1.5 모델을 기반으로 하고 있다. 카나나 1.5는 모델 개발의 처음부터 마지막 단계까지 카카오의 자체 기술을 바탕으로 구축하는 프롬 스크래치 방식으로 개발됐다.</p> <figure class="figure_frm origin_fig" contents-hash="6909d470a797445c5270b2fd24370af1e3cea40ee902d613d22ddb9593f566fb" dmcf-pid="3DcLMpMUvq" dmcf-ptype="figure"> <p class="link_figure"><img alt="카나나-1.5-v-3b의 성능을 국내외 모델과 비교한 도포다. 사진=카카오" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202507/24/ked/20250724115349658jvru.jpg" data-org-width="1200" dmcf-mid="GERd6t6FT4" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202507/24/ked/20250724115349658jvru.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 카나나-1.5-v-3b의 성능을 국내외 모델과 비교한 도포다. 사진=카카오 </figcaption> </figure> <p contents-hash="a2f3e916f85768fa6ae16b64a1111af2f92018a866b1785da049e2f02e9ac040" dmcf-pid="0wkoRURuhz" dmcf-ptype="general"><br>카나나-1.5-v-3b는 이용자의 질문 의도를 정확히 이해하는 높은 지시 이행 성능과 한국어 영어 이미지 이해 능력을 보유했다. 카카오는 한국어 벤치마크에서 유사 사이즈의 국내외 공개 모델과 비교한 결과 최고 점수를 기록했고, 다양한 영어 벤치마크에서 해외 오픈소스 공개모델과 비교했을 때도 유사한 수준의 성능을 보였다며 GPT-4o와 견줄 수 있다고 설명했다. 지시 이행 능력 벤치마크는 국내 공개 유사 멀티모달 언어모델 대비 128% 수준 성능을 기록했다.</p> <p contents-hash="8ef5119b498a39b47ae63326da6dca22c41aa740c3b66ca9dba33aa90d41946a" dmcf-pid="prEgeue7l7" dmcf-ptype="general">카카오는 인간 선호 반영 학습과 지식 증류를 통해 카나나-1.5-v-3b의 성능을 극대화했다. 지식 증류는 고성능의 대형 모델로부터 비교적 작은 모델을 학습하는 방식이다. 단순한 정답은 물론 아니라 대형 모델의 예측 확률 분포까지 학습에 반영해 작은 모델이 더 정교하고 일반화된 예측 능력을 갖추도록 돕는 기술이다. 상대적으로 경량화된 모델 구조더라도 정확도나 언어 이해 등의 능력에서 대형 모델의 높은 성능에 근접할 수 있다.</p> <figure class="figure_frm origin_fig" contents-hash="863ae78be7cdb4d4e0135afdca4677a8eee3f19f1ddaf0032417d87d5c2712a4" dmcf-pid="UmDad7dzyu" dmcf-ptype="figure"> <p class="link_figure"><img alt="카나나-1.5-v-3b의 장소에 대한 인식 수준을 보여주는 예시다. 사진=카카오" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202507/24/ked/20250724115350963lhoc.jpg" data-org-width="1198" dmcf-mid="HBB0XEXDSf" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202507/24/ked/20250724115350963lhoc.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 카나나-1.5-v-3b의 장소에 대한 인식 수준을 보여주는 예시다. 사진=카카오 </figcaption> </figure> <p contents-hash="c7a45ce1e980df0a99bcba5a5ddfc297f9d8e7462e0a2b98dbbd9b73bca7bb6d" dmcf-pid="uswNJzJqyU" dmcf-ptype="general">카카오는 모델의 성능에 집중하는 단계를 넘어 AI가 사람처럼 생각하고 행동할 수 있는 멀티모달 이해 능력, 사용자 지시 수행 능력, 추론 능력을 갖추도록 발전시키는 데 주력하고 있다. 하반기 중에는 에이전트형 AI 구현에 필수적인 추론 모델의 성과도 공개할 예정이다.</p> <p contents-hash="14918ae341ec5459cc03997f3a396754fce2e7f40d3a80d8d9e11afe9d998a68" dmcf-pid="7OrjiqiBSp" dmcf-ptype="general">카카오는 이날 밀집 모델과 차별화되는 MoE 구조의 언어모델도 함께 공개했다. MoE는 입력 데이터를 처리할 때 모든 파라미터가 연산에 참여하는 기존 모델과 달리 특정 작업에 최적화된 일부 전문가 모델만 활성화된다. 이 때문에 효율적인 컴퓨팅 자원 활용과 비용 절감이 가능해 글로벌 시장에서는 AI 모델 개발 트렌드로 자리를 잡고 있다는 설명이다.</p> <p contents-hash="5b7183f0099cca60975adc483133d92c68a80e660ca3055fedc9eed914dcc02f" dmcf-pid="zImAnBnbS0" dmcf-ptype="general">김병학 카카오 카나나 성과리더는 "이번 오픈소스 공개는 비용 효율성과 성능이라는 유의미한 기술 개발의 성과를 거둔 것으로 단순한 모델 아키텍처의 진보를 넘어 서비스 적용과 기술 자립이라는 두 가지 측면의 목표에 부합하는 결과물"이라고 말했다.</p> <p contents-hash="25bff98bf9536e6ecdeb9649bf8f09c4875f9c1b8a949df9490c3ea85eed6e0f" dmcf-pid="qCscLbLKy3" dmcf-ptype="general">박수빈 한경닷컴 기자 waterbean@hankyung.com</p> </section> </div> <p class="" data-translation="true">Copyright © 한국경제. 무단전재 및 재배포 금지.</p> 관련자료 이전 SK하이닉스 "올해 HBM 투자 확대 전망"…내년 '완판' 계획 순항(종합2보) 07-24 다음 체육공단, 탈북 청소년에게 레저스포츠 체험 부여 07-24 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.