“옴니모달 AI로 디지털 넘어 물리 주권까지 강화”

작성일 01-22

<div id="layerTranslateNotice" style="display:none;"></div>  <strong class="summary_view" data-translation="true">김건희 서울대 교수 SKT 뉴스룸 기고</strong> 
        <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
         <section dmcf-sid="2Lh31IwaSf">
          <figure class="figure_frm origin_fig" contents-hash="9971132df782246e0de4b926c90addae58d353bd39ca1b56353e6f5167fc4e7f" dmcf-pid="Vol0tCrNCV" dmcf-ptype="figure">
           <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202601/22/BUSINESSWATCH/20260122100217697vlny.jpg" data-org-width="4032" dmcf-mid="9jF421Ghh4" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202601/22/BUSINESSWATCH/20260122100217697vlny.jpg" width="658"></p>
          </figure>
          <p contents-hash="8693db863f014516b58cad2a8f86ddab3b734d3181ebfd8ac6e0e41f648883dd" dmcf-pid="fGKieBUZh2" dmcf-ptype="general">정부의 '독자 AI 파운데이션 모델 프로젝트'가 높은 관심을 받는 가운데 텍스트를 넘어 이미지·영상·음성까지 이해하는 옴니모달 AI가 디지털 주권 확보의 핵심 기술로 부상하고 있다.</p>
          <p contents-hash="26b5fc894a024f981a25a637c075871570f5813b15db7f5cf358099c319c5520" dmcf-pid="4H9ndbu5h9" dmcf-ptype="general">SK텔레콤 컨소시엄에 참여 중인 김건희(<strong>사진</strong>) 서울대 컴퓨터공학부 교수는 22일 SKT 뉴스룸 기고문을 통해 "성공적인 옴니모달 모델 확보는 디지털 주권을 넘어 물리적 인프라 주권까지 강화하는 기반이 될 수 있다"고 강조했다. 김 교수가 이끄는 연구팀은 SKT 컨소시엄에 참여해 멀티모달 연구를 지속해 오고 있다.</p>
          <p contents-hash="64751e07e17482a6c5342c3c9ec255cab0223895106ec469d36d895d34fc408a" dmcf-pid="8X2LJK71hK" dmcf-ptype="general">초거대 언어모델(LLM)은 기본적으로 텍스트를 기반으로 의미를 이해하는 모델이다. 여기에 이미지·영상 등 시각 정보를 처리하면 멀티모달, 음성까지 아우르면 옴니모달로 확장된다. 2024년 3월 오픈AI가 공개한 'GPT-4o'가 대표적 사례다.</p>
          <p contents-hash="20ec810d01d499d135b005fac12c5c573ac3427b58bb9c55594c655b5ee481e4" dmcf-pid="6ZVoi9ztWb" dmcf-ptype="general">김 교수는 특히 음성 이해 기술의 중요성을 강조했다. 그는 "음성은 AI 모델과 의사소통을 할 수 있는 수단으로 최근 학계와 산업계에서 큰 주목을 받고 있다"며 "하지만 음성은 단순히 새로운 입력 형식을 추가하는 것을 넘어 여러 기술적인 도전 과제들이 존재한다"고 말했다. 과거에는 음성을 텍스트로 변환한 뒤 처리하는 방식이 주를 이뤘으나, 최근에는 하나의 언어모델이 음성 정보까지 직접 처리하는 통합형 모델이 주목받고 있다고 덧붙였다. </p>
          <p contents-hash="871f901077ab614f3d81c3952bf52c5057c2bca6db06aab0bc51a76ed1a2d183" dmcf-pid="P5fgn2qFTB" dmcf-ptype="general">김 교수는 "옴니모달 모델은 강력한 사전 학습된 언어모델을 그 핵심에 두고 음성을 포함한 다양한 멀티모달 데이터로 미세조정하는 방식으로 개발된다"며 "높은 성능의 언어모델을 갖추는 것이 옴니모달 모델 개발 성공의 핵심 요소"라고 말했다.</p>
          <p contents-hash="4a014ba711c9ad8c328dfdbc14f33d1d50d56bec316142497d39ffb1980fdf9a" dmcf-pid="Q14aLVB3Tq" dmcf-ptype="general">SKT 컨소시엄의 초거대 AI 모델 'A.X K1' 역시 옴니모달 모델로의 진화를 이어갈 예정이다. 이 모델은 1000만명 이상이 사용하는 에이닷을 비롯해 티맵, B tv 등 생활 밀착형 서비스에 적용돼 실시간 음성 대화와 통화 요약 기능을 지원할 것으로 전망된다.</p>
          <p contents-hash="5adcb71fde4635e852210c24454706c68af3198ac381f8ff0f2c9669eb16634d" dmcf-pid="xt8Nofb0Wz" dmcf-ptype="general">김 교수는 또한 소버린 AI 성공을 위해선 국가의 핵심 데이터 주권을 온전히 활용해야 한다고 밝혔다.</p>
          <p contents-hash="1a884ddc4f2b3fbd31285bfcb4598932eee14bdc87a3c5506e4c90dfc444e4f5" dmcf-pid="yol0tCrNl7" dmcf-ptype="general">그는 "국가, 공공, 산업 데이터는 대부분 다양한 형식의 비정형 데이터이므로 옴니모달 모델은 이 이러한 데이터를 외부 플랫폼에 의존하지 않고 직접 학습·운영할 수 있게 해준다"며 "옴니모달 모델은 산업 전반을 하나의 모델로 연결할 수 있으며, 장기적으로는 물리적 세계까지 아우르는 실행형 AI로 진화해 나갈 것"이라고 내다봤다. </p>
          <p contents-hash="d2c94477996b80cefad9c7248e8154dcf8ec2c815d08777d716d29f49a0ddc16" dmcf-pid="WgSpFhmjvu" dmcf-ptype="general">백지현 (jihyun100@bizwatch.co.kr)</p>
          <p contents-hash="580155e0d38d1e0307f6555badbda58ae0fc5c87b737789f3679c0e09fcab72b" dmcf-pid="YavU3lsAvU" dmcf-ptype="general">ⓒ비즈니스워치의 소중한 저작물입니다. 무단전재와 재배포를 금합니다.</p>
         </section> 
        </div> 
        <p class="" data-translation="true">Copyright © 비즈워치. 무단전재 및 재배포 금지.</p>

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

먹튀폴리스

“옴니모달 AI로 디지털 넘어 물리 주권까지 강화”

멤버랭킹

관련자료

멤버랭킹