부족한 한국어 데이터 직접 생성 …'국가대표 AI' 성능 높일 것

작성일 02-23

<div id="layerTranslateNotice" style="display:none;"></div> 한지윤 업스테이지 데이터 총괄 범용지식은 영어 자료 많아 AI 기반 합성데이터로 보완 사전·사후 학습때 적극 활용 
 <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
 <section dmcf-sid="FWsTc9cny1">
 <figure class="figure_frm origin_fig" contents-hash="3d1dfc78b64a5acfe7069c8aabb4bf9e43754d27ea8ee502830a4ef75c7dc057" dmcf-pid="3YOyk2kLS5" dmcf-ptype="figure">
 <img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202602/23/mk/20260223160644049mliu.jpg" data-org-width="1000" dmcf-mid="tp17WLWIht" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202602/23/mk/20260223160644049mliu.jpg" width="658">
 </figure>
 뛰어난 생성형 인공지능(AI) 모델을 만들기 위해서는 그 재료인 데이터의 중요성이 절대적이다. 다양한 분야를 반복 학습하며 사람이 똑똑해지듯이 AI 모델도 고품질의 데이터로 학습하는 과정에서 지능을 얻는다.
 지난해 국가대표 인공지능(AI) 기업 5곳에 꼽힌 유일한 스타트업이자 올해 초 1차 평가까지 통과한 업스테이지의 저력도 이 같은 데이터 기술력에서 출발했다.
 업스테이지의 데이터팀을 이끄는 한지윤 총괄은 최근 매일경제와 만나 모델 개발 전략을 소개하며 "다른 컨소시엄 대비 업스테이지의 강점은 합성 데이터를 많이 활용했다는 것이다. 단순히 새롭게 데이터를 생성하는 것이 아닌 사전·사후 학습 단계에서 유형별로 합성 데이터를 굉장히 다양하게 사용한다"고 설명했다.
 국가대표 AI 모델 확보를 위한 정부의 '독자 AI 파운데이션 모델' 프로젝트에서 업스테이지가 1차로 선보인 '솔라 오픈 100B' 모델에 대한 설명이다. 합성 데이터는 쉽게 말하면 인간이 작성한 글이 아닌 AI를 통해 인위적으로 만든 데이터를 일컫는다.
 솔라 오픈 100B의 경우 약 19조7000억 토큰(언어 모델이 텍스트를 이해하는 기본 단위)의 데이터를 학습했는데, 이 중 약 4조5000억 토큰이 합성 데이터였다. 한국어 데이터가 절대적으로 부족한 상황에서 업스테이지가 취한 공격적인 전략이었다. 특히 방대한 데이터를 확보한 다른 컨소시엄 대비 업스테이지만의 차별점을 만든 요소기도 하다.
 한 총괄은 "웹에 있는 데이터에는 고난도 전문 지식이 포함돼 있지 않은 경우가 많다. 또한 범용 지식은 영어로 많이 돼 있고 한국어 텍스트는 부족해 그 점을 합성 데이터로 보완하고 있다"고 설명했다.
 합성 데이터를 만드는 방식은 일반인이 생성형 AI 챗봇에 프롬프트를 넣어 답변을 받는 과정과 크게 다르지 않다. 다만 텍스트 데이터를 생성하기 위해 유의미한 프롬프트를 넣는 것이 중요하다. 또한 한 번의 설명문에 그치지 않고 대화가 오가도록 프롬프트를 설계해 대화의 흐름을 얻어내기도 한다.
 업스테이지는 합성 데이터 생성에는 주로 자사 기존 모델인 '솔라 프로 2'를 활용했다. 출시 당시 전 세계 모델 순위 10위권에 오르며 조명을 받았던 모델이다.
 한 총괄은 "이전에는 모델이 생성한 텍스트를 쓸 수 없다고 생각했지만, 지금은 사람들이 쓴 것과 차이가 없는 수준"이라며 "솔라 프로 2를 주로 쓴 것도 해당 모델 자체가 이미 글로벌 프런티어급 성능이기에 이를 활용해 합성 데이터를 만들면 모델 성능 개선에 기여할 수 있겠다는 확신이 있었다"고 설명했다.
 또한 업스테이지는 설립 초기부터 AI 학습을 위한 데이터팀을 따로 운영하며 기반을 닦아왔다. 한 총괄은 "모델 성능을 고도화하려면 이에 맞춘 커스텀 데이터가 필요한데, 업스테이지는 초창기부터 이러한 데이터를 확보해왔다. 지금도 광학문자인식(OCR) 솔루션 '도큐먼트 AI' 등 솔루션별로 필요한 데이터를 만드는 것에 집중하고 있다"고 말했다.
 올해 8월로 예정된 독자 AI 파운데이션 모델 2차 평가에서 업스테이지는 파라미터 수를 기존 1000억 규모에서 2000억 규모로 키우는 방안을 추진하고 있다.
 한 총괄은 "모델 크기를 키우면서 모델 성능을 높이는 데 집중하고 있다. 이를 위해 모델의 능력을 잘 발휘할 수 있도록 사후학습 데이터를 잘 만드는 것이 중요하다"고 설명했다. 3차부터는 모델이 이미지까지 이해하는 멀티모달로의 확장이 목표다.
 데이터를 확보하는 과정에서 가장 신경쓰는 부분을 묻자 한 총괄은 "정확하게 성능을 올리는 데이터를 설계해서 구축하는 것"이라고 강조하면서 또한 데이터 라이선스 측면에도 심혈을 기울이고 있다고 설명했다. 그는 "모델 학습까지 허용하는 라이선스를 가진 데이터를 찾기가 어렵다 보니, 합성 데이터를 많이 활용하는 것도 라이선스 정책을 준수하기 위한 것"이라고 설명했다. 한 총괄은 "장기적으로는 '솔라'라는 모델이 어떠한 존재가 돼야 하는지 탐구하며 이에 맞춰 데이터를 준비하는 작업을 해나가고 있다. 솔라로 어떤 일을 할 수 있는지 보여주는 독창적인 벤치마크도 공개해 나갈 것"이라고 강조했다. 
 [정호준 기자]
 </section> 
 </div> 
 Copyright © 매일경제 &amp; mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이전

"AI가 최적 인플루언서 추천 … 진격의 K뷰티 마케팅 돕죠"

02-23
다음

AI비서가 데이터 추출·고객 응대 척척 … IT 운영비 30% 아껴

02-23

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

먹튀폴리스

부족한 한국어 데이터 직접 생성 …'국가대표 AI' 성능 높일 것

멤버랭킹

관련자료

멤버랭킹