네이버, 글·음성·영상 한 번에 생성 ‘옴니모달’ AI 개발 완료…이르면 이달 공개 작성일 12-21 9 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">GPT-4o·라마4까지…글로벌 빅테크도 ‘옴니 전쟁’<br>멀티모달 한계 넘는다…“산업AI로 진화 목표”</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="5Y3ruyiPCV"> <figure class="figure_frm origin_fig" contents-hash="857e08555eea0c0c5146e000e3e2907ce3c61d6b30cd062bdd91519feaf97579" dmcf-pid="1v5k3lRfS2" dmcf-ptype="figure"> <p class="link_figure"><img alt="최수연 네이버 대표가 지난달 6일 DAN25 컨퍼런스에서 네이버의 통합 에이전트 방향성으로 ‘에이전트 N’을 소개하고 있다. 네이버 제공" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/21/dt/20251221160305270qmwi.jpg" data-org-width="640" dmcf-mid="Z5yoHr4qCf" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/21/dt/20251221160305270qmwi.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 최수연 네이버 대표가 지난달 6일 DAN25 컨퍼런스에서 네이버의 통합 에이전트 방향성으로 ‘에이전트 N’을 소개하고 있다. 네이버 제공 </figcaption> </figure> <p contents-hash="864414a724f75a7d4670259508966e840236d10f45b81f730a035137335ea027" dmcf-pid="tT1E0Se4T9" dmcf-ptype="general"><br> 네이버가 차세대 인공지능(AI) 기술로 꼽히는 ‘옴니모달’ 모델 개발을 마치고 활용 단계에 돌입한다. 텍스트를 넘어 이미지와 음성, 영상, 행동까지 한 번에 이해하고 생성하는 옴니모달 AI를 통해 단순 챗봇을 넘어 산업 현장과 물리 세계까지 아우르는 ‘현장형 AI’로 진화하겠다는 구상이다. 이는 오픈AI와 구글, 메타 등 글로벌 빅테크가 옴니모달 경쟁에 나선 흐름과도 맞물린다.</p> <p contents-hash="1e5042a4e1de7534abbfc0c240e3d4cd476d46f4475ece89168d591b2441a8c1" dmcf-pid="FytDpvd8TK" dmcf-ptype="general">21일 관련 업계에 따르면 네이버는 최근 자체 옴니모달 모델 개발을 완료하고 이르면 이달 말 신규 생성형 AI 모델인 옴니모달을 공개할 예정이다. 제조, 에너지, 금융 등 복잡한 산업 현장에서 가치를 만들어내는 ‘산업 AI’ 전환이 목표다.</p> <p contents-hash="23fa576739d5ca4a1c7ec67fb9715bed41ad4523e8253f9caeafd2a9aab746c9" dmcf-pid="3WFwUTJ6hb" dmcf-ptype="general">네이버가 옴니모달을 차세대 승부수로 내세운 배경에는 글로벌 AI 업계 전반에서 ‘옴니’로의 기술 진화가 가속화되고 있다는 판단이 깔려 있다. 실제 오픈AI는 지난해 ‘GPT-4’를 업그레이드하면서 텍트스와 이미지, 음성 입출력을 하나의 모델에서 처리하는 ‘GPT-4o’를 공개했다. GPT-4o에서 ‘o’는 ‘옴니’의 약자다. 데미스 하사비스 구글 딥마인드 최고경영자(CEO)도 지난 8월 “여러 모델들이 모든 것을 할 수 있는 하나의 ‘옴니 모델’로 수렴하고 있다”며 “이것이 AGI 시스템이 할 수 있어야 할 모습”이라고 언급했다.</p> <p contents-hash="7f6eacef897efc4b9cddcb66cee969237dcccb9f25c0ef1a2f587e018c923d8e" dmcf-pid="0Y3ruyiPSB" dmcf-ptype="general">중국 알리바바도 지난 9월 ‘큐웬3-옴니’ 모델을 발표하며 사전 학습 단계부터 다양한 모달리티를 하나의 구조로 학습한 ‘네이티브 엔드투엔드 옴니모달’을 강조했다. 메타 또한 신규 플래그십 ‘라마(Llama) 4’를 두고 음성까지 출력할 수 있는 네이티브 옴니 모델이라고 설명했다. 업계에서는 세상을 입체적으로 이해하고 자유롭게 소통하는 일반인공지능(AGI) 구현을 위해 옴니모달이 필수 기술로 자리 잡고 있다는 분석이 나온다.</p> <p contents-hash="b9d30bceab633ab6f46d3cb37fac146c095626a8878f4491d9ce0f2cee6e231a" dmcf-pid="pG0m7WnQyq" dmcf-ptype="general">기존의 ‘멀티모달’은 텍스트 중심 거대언어모델(LLM)에 시각·음성 모듈을 사후적으로 결합해 만든다. 하지만 이런 구조는 모델이 복잡해지고, 모달리티 간 연결이 어색하고 성능을 키우는 데도 한계가 있다는 지적이 있었다.</p> <p contents-hash="03311d1085b4f700db37a07eaca8ed6225a14f022f09fecd2e1c775552580dde" dmcf-pid="UHpszYLxWz" dmcf-ptype="general">이와 달리 처음부터 글, 이미지, 음성을 하나의 모델 안에서 한꺼번에 학습하는 옴니모달의 모델 구조는 스케일업 측면에서도 유리하다. 네이버가 그간 ‘프롬 스크래치’(제로 베이스에서 시작) 개발을 강조해 온 것도 핵심 구조를 직접 설계해야 새로운 방법론을 안정적으로 확보할 수 있다는 판단에서다.</p> <p contents-hash="5cc094642bda24ed1050ef13916c7d86d9d79f15797d6ef2177364b2d337b211" dmcf-pid="uXUOqGoMW7" dmcf-ptype="general">네이버 관계자는 “기존 멀티모달은 사실상 여러 모델을 이어 붙인 구조라 일관성과 확장성에 제약이 있었다”며 “옴니모달은 학습 초기부터 텍스트·이미지·음성 등을 한꺼번에 넣어 단일 모델로 학습시키는 방식”이라고 설명했다. 같은 정보를 어떤 형태로 입력하든 일관된 정확도로 이해하고 결과를 내놓는 것이 강점이라는 것.</p> <p contents-hash="213469369f62d6188abb82298a5730b715b9eb7c9b3b63d2a40fd6805334577f" dmcf-pid="7ZuIBHgRCu" dmcf-ptype="general">특히 옴니모달은 ‘산업 AI’ 전환에 강점이 있는 것으로 평가된다. 제조 현장, 발전소, 조선소 등 산업 현장에서 오가는 정보는 문서만이 아니라 작업자의 음성, 설비 영상, 기계 소음, 동작과 행동 데이터까지 복합적으로 얽혀 있다. 업계에서는 옴니모달이 향후 ‘행동’까지 확장되며 로봇, 자율주행차 등 ‘피지컬 AI’를 잇는 중간 다리 역할을 할 것으로 보고 있다.</p> <p contents-hash="97e557998ea1e3c06dad4b0daa0a293c0fc9bec4f940b15b711bb4acc65b6878" dmcf-pid="z57CbXaeSU" dmcf-ptype="general">업계 한 관계자는 “공장과 같은 산업 현장 정보는 글로만 오가지 않고 사람들의 말과 행동, 소리와 영상까지 모두 데이터”라며 “이런 복잡한 맥락을 이해하고 실제로 도움을 주는 AI는 텍스트 기반이 아니라 옴니모달이어야 한다는 수요가 커지고 있다”고 말했다. 설비 이상 감지, 안전 사고 예방, 공정 최적화 등에서도 다양한 신호를 종합적으로 이해하는 능력이 요구된다.</p> <p contents-hash="8fd79ec3f356cd5e013708d6dcbe58f9357add1fd786e7609e9cf76a1d5a3e40" dmcf-pid="q1zhKZNdSp" dmcf-ptype="general">네이버가 옴니모달을 전면에 내세운 것도 이 같은 산업·현장 중심 전략과 맞닿아 있다. 네이버의 ‘하이퍼클로바X’는 이미 한국은행, 한국수력원자력 등 주요 기관과 기업에서 활용되고 있다. 여기에 옴니모달이 더해지면 문서 이해를 넘어 음성·이미지·영상·실시간 현장 데이터를 아우르는 AI로 진화할 수 있다.</p> <p contents-hash="a32659a7aac9c0554f7d69fb93aac15c4c217eebc94350a20ffbfaa2a980a817" dmcf-pid="BMgBAQXSy0" dmcf-ptype="general">네이버클라우드는 지난 10월 엔비디아와 업무협약(MOU)을 맺고 반도체·조선·에너지 등 국가 주력 산업을 중심으로 AI 인프라를 구축하겠다는 계획도 밝혔다. 산업 현장에서 실제로 작동하는 AI 생태계를 만들겠다는 구상이다.</p> <p contents-hash="2c2f1fc434074036c2498b0a222825ea91120f00ae99e431de594e9b9436d2ce" dmcf-pid="bRabcxZvl3" dmcf-ptype="general">당장은 네이버클라우드를 중심으로 산업 현장 등 기업간거래(B2B)가 주 무대지만, 장기적으로는 기업과소비자간거래(B2C) 확장도 염두에 두고 있다. 일상에서 오가는 정보 또한 텍스트보다 음성, 이미지, 영상이 훨씬 많기 때문이다. 스마트 안경 등 새로운 디바이스와 결합할 경우 활용 범위는 더 넓어진다.</p> <p contents-hash="d280419b1b26aa0726caa2f994e3a1c2e1aa29ef4143e569378950c498a3c414" dmcf-pid="KeNKkM5TvF" dmcf-ptype="general">네이버는 우선 비교적 작은 옴니모달 모델로 자체 개발 방법론을 확보하고, 이를 검증한 뒤 점진적으로 스케일업해 글로벌 빅테크 수준의 성능을 목표로 한다는 방침이다. 국가대표 AI 모델을 개발하는 ‘독자 AI 파운데이션’ 프로젝트에서도 옴니모달을 전면에 내세운 곳은 네이버가 사실상 유일하다는 게 회사 측 설명이다.</p> <p contents-hash="a6b61c0a37aef835be67b10035088479bc1d363602c104d899a3eb816546c58f" dmcf-pid="9dj9ER1yWt" dmcf-ptype="general">김나인 기자 silkni@dt.co.kr</p> </section> </div> <p class="" data-translation="true">Copyright © 디지털타임스. 무단전재 및 재배포 금지.</p> 관련자료 이전 선우용여, 자녀 상속 칼차단…"유산은 돌봐준 사람 몫" [RE:뷰] 12-21 다음 [ET시론] AI 혁신을 지원하는 사법부의 결단 12-21 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.