KAIST, 다크나잇 속 조커가 ‘내가 되는’ 영상 기술 개발 작성일 02-23 41 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">영상 하나로 ‘1인칭 시점’ 영상 생성하는 AI ‘EgoX’ <br>3차원 공간 이해 기반, 1개의 3인칭 영상만으로 변환</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="Y52CE6mjCz"> <figure class="figure_frm origin_fig" contents-hash="27b165bd256444e268af7762b8309ef8136f226876a269ac68bc95a814cd3020" dmcf-pid="G1VhDPsAv7" dmcf-ptype="figure"> <p class="link_figure"><img alt="3인칭 시점을 1인칭으로 변환하는 EgoX기술(AI생성이미지).사진제공=KAIST" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202602/23/seouleconomy/20260223095905013mwrf.jpg" data-org-width="620" dmcf-mid="Zn0mjVEoTA" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202602/23/seouleconomy/20260223095905013mwrf.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 3인칭 시점을 1인칭으로 변환하는 EgoX기술(AI생성이미지).사진제공=KAIST </figcaption> </figure> <p contents-hash="b74ff608b232d40a441d7021af846702f5ee392888c91c99c55f6c95999e4372" dmcf-pid="HtflwQOcCu" dmcf-ptype="general"><br> KAIST 연구진이 일반 영상 한 개만으로도 사용자가 직접 보는 1인칭 시점 영상을 생성하는 새로운 인공지능(AI) 모델을 개발했다. 증강현실(AR)·가상현실(VR)이 활용되는 분야에서 혁신적인 기술이 될 것으로 기대된다.</p> <p contents-hash="8d384d0ffac73f688f08e1a01bf32cc3b22dbe87c2aa68c3a949a01960325212" dmcf-pid="XF4SrxIkvU" dmcf-ptype="general">KAIST 김재철 AI대학원 주재걸 석좌교수 연구팀은 관찰자 시점의 영상만을 활용해 영상 속 인물이 실제로 보고 있었을 장면을 정밀하게 생성하는 AI 모델 ‘에고엑스(EgoX)’를 개발했다고 23일 밝혔다.</p> <p contents-hash="c7b56dc5db7061e60d6bf620cab732ba42cd349bbfa1186a227a71e657433e09" dmcf-pid="Z38vmMCEyp" dmcf-ptype="general">그동안은 고품질의 1인칭 영상을 얻기 위해서는 사용자가 고가의 액션캠이나 스마트 글래스를 직접 착용해야 했다. 또한 이미 촬영된 일반 영상(제3자 시점, Exocentric video)을 1인칭 시점으로 자연스럽게 변환하는 데에도 기술적 제약이 존재했다.</p> <p contents-hash="f79146d262aeba3bb5697792061cfefa80f83a6d834259325e5a31c408663f97" dmcf-pid="506TsRhDy0" dmcf-ptype="general">이번 기술은 단순히 화면을 회전시키는 수준을 넘어 인물의 위치와 자세, 주변 공간의 3차원(3D) 구조를 종합적으로 이해한 뒤 이를 기반으로 1인칭 시점 영상을 재구성한다는 점이 특징이다.</p> <p contents-hash="6a5fbbf8d0dc3ee5fabd14942058bba9cddd7848b3edc9f90036754c94672e28" dmcf-pid="1pPyOelwW3" dmcf-ptype="general">기존 기술은 정지 이미지만 변환하거나 4대 이상의 카메라 영상이 필요한 경우가 많았다. 또한 빛의 방향이나 움직임이 복잡한 동영상에서는 화면이 어색해지는 문제가 있었다. 반면 에고엑스는 단 하나의 3인칭 시점 영상만으로도 고품질의 1인칭 영상을 생성할 수 있다. 연구팀은 “인물의 머리 움직임과 실제 시야 사이의 상관관계를 정밀하게 모델링함으로써, 고개를 돌릴 때 시야가 자연스럽게 전환되는 모습까지 사실적으로 구현하는 데 성공했다”고 밝혔다.</p> <figure class="figure_frm origin_fig" contents-hash="0fe8e8ba7e1581ccba9278a4b2750852b5bba661cea5c98163b474089af48ad1" dmcf-pid="tKi1yaHlWF" dmcf-ptype="figure"> <p class="link_figure"><img alt="3인칭 시점 영상을 1인칭 시점 영상으로 변환한 예시.사진제공=KAIST" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202602/23/seouleconomy/20260223095906266acfj.jpg" data-org-width="620" dmcf-mid="yJpsAfDgWB" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202602/23/seouleconomy/20260223095906266acfj.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 3인칭 시점 영상을 1인칭 시점 영상으로 변환한 예시.사진제공=KAIST </figcaption> </figure> <p contents-hash="14f9c95ac4c0907a479ed12cd93c965635a0ea1b1db9ca647b93c1914fbfef08" dmcf-pid="F9ntWNXSWt" dmcf-ptype="general"><br> 이번에 개발된 기술은 특정 환경에 국한되지 않고 요리·운동·작업 등 다양한 일상 상황에서도 안정적인 성능을 보였다. 이를 통해 별도의 웨어러블 장치를 착용하지 않고도 기존에 축적된 영상으로부터 고품질의 1인칭 시점 데이터를 확보할 수 있는 새로운 가능성을 열었다는 평가를 받고 있다.</p> <p contents-hash="8926c629f0ac1415b41ed545789e2c2b8b2bc50d6e21d6a29511590784ba8b6c" dmcf-pid="32LFYjZvh1" dmcf-ptype="general">에고엑스는 향후 다양한 산업 분야에서 적용 가능하다. AR·VR및 메타버스 분야에서는 일반 영상을 사용자가 직접 체험하는 듯한 몰입형 콘텐츠로 전환해 사용자 경험을 극대화할 수 있다. 또한 로봇이 사람의 행동을 보고 학습하는 모방 학습(Imitation Learning)의 핵심 데이터로 활용될 수 있어 로봇과 AI 학습 분야에도 기여할 것으로 전망된다. 이밖에 스포츠중계나 브이로그를 선수나 주인공의 시점으로 전환하는 등 새로운 형태의 영상 서비스도 가능해질 것으로 기대된다.</p> <p contents-hash="f0aab9f868edbba629607b729e3fe85773456c91e6da0a81e648ae25cf043b36" dmcf-pid="0Vo3GA5TT5" dmcf-ptype="general">주재걸 석좌교수는 “이번 연구는 단순한 영상 변환 기술을 넘어, 인공지능이 사람의 ‘시야’와 ‘공간 이해’를 학습해 재구성했다는 점에서 의미가 크다”며 “앞으로는 기존에 촬영된 영상만으로도 누구나 몰입형 콘텐츠를 제작하고 경험할 수 있는 환경이 열릴 것으로 기대한다”고 말했다. 이어 “KAIST는 생성형 AI 기반 비디오 기술분야에서 세계적 경쟁력을 확보해 나갈 것”이라고 덧붙였다.</p> <p contents-hash="a831e2c288741abd95697d497120ca4bdf1940af65495fe7183e87f50a7d3188" dmcf-pid="pfg0Hc1ylZ" dmcf-ptype="general">이번 연구는 강태웅, 김기남 KAIST 박사과정, 김도현 서울대 학부연구생이 제 1저자로 참여했다. 논문은 2025년 12월 9일 arXiv에 선공개되어 미국 빅테크를 비롯한 AI 산업 및 학계의 큰 주목을 받았다. 오는 6월 3일에는 미국 콜로라도에서 열리는 국제 학술대회인 The IEEE/CVPR에 공식 발표될 예정이다.</p> <figure class="figure_frm origin_fig" contents-hash="62821df10be24250d3b79dff7984f54d3c5d3ec3310359172cc5c5f99e56f134" dmcf-pid="U4apXktWyX" dmcf-ptype="figure"> <p class="link_figure"><img alt="KAIST 주재걸 교수팀 사진.사진제공=KAIST" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202602/23/seouleconomy/20260223095907521ymgg.jpg" data-org-width="620" dmcf-mid="WalPKWfzhq" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202602/23/seouleconomy/20260223095907521ymgg.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> KAIST 주재걸 교수팀 사진.사진제공=KAIST </figcaption> </figure> <p contents-hash="b321c7dc4c59dc1e32d47b915d9cd21078197270eac8dd539af66eedd480f052" dmcf-pid="u8NUZEFYyH" dmcf-ptype="general"><br> 장형임 기자 jang@sedaily.com</p> </section> </div> <p class="" data-translation="true">Copyright © 서울경제. 무단전재 및 재배포 금지.</p> 관련자료 이전 FT아일랜드 이홍기, 뮤지컬 '슈가' 막공 성료 "매순간 즐거웠다" 02-23 다음 삼성전자, '뉴 갤럭시 AI 구독클럽' 혜택 강화…3년형 신설 02-23 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.