“고가 액션캠없이도” 일반영상→1인칭 영상시점 전환…KAIST, 신개념 ‘AI’ 개발 작성일 02-23 42 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">- 김재철AI대학원 주재걸 석좌교수팀, AI ‘EgoX’ 개발<br>- AR, VR, 로보틱스, 스포츠 등 다양한 분야 활용 기대</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="FxiQ4ZQ9HZ"> <figure class="figure_frm origin_fig" contents-hash="fd6fc5ba2bdffca95fb4b0830be31c1b65a5fc0e8f564c0a31f12b18af2d16f2" dmcf-pid="3Mnx85x2tX" dmcf-ptype="figure"> <p class="link_figure"><img alt="이번 연구를 수행한 KAIST 연구진. 강태웅(왼쪽부터), 형준하 박사과정, 주재걸 교수, 박민호 박사과정, 김기남(오른쪽 위 네모) 박사과정, 김도현 서울대 학부연구생. [KAIST 제공]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202602/23/ned/20260223082127331hfza.jpg" data-org-width="1280" dmcf-mid="5qQ2BT2utt" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202602/23/ned/20260223082127331hfza.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 이번 연구를 수행한 KAIST 연구진. 강태웅(왼쪽부터), 형준하 박사과정, 주재걸 교수, 박민호 박사과정, 김기남(오른쪽 위 네모) 박사과정, 김도현 서울대 학부연구생. [KAIST 제공] </figcaption> </figure> <p contents-hash="3bd51f39d99f6f41f813dce9bdb07bd3bf7ee2c24bb7abfedd60eb400675814c" dmcf-pid="0RLM61MVXH" dmcf-ptype="general">[헤럴드경제=구본혁 기자] 영화 다크나잇을 보면서 화면 속 조커를 바라보는 것이 아니라, 내가 조커가 되어 고담시를 직접 바라본다면 어떨까. 관객의 시선이 아닌 등장인물의 눈으로 세상을 경험하는 영상 기술이 현실이 되고 있다. 국내 연구진이 일반 영상만으로도 사용자가 직접 보는 시점의 영상을 생성하는 새로운 인공지능 모델을 개발했다.</p> <p contents-hash="736d07000592052b2eb83761f4823ecff5ab0acaa8f317d7b5cd6b3213992ef3" dmcf-pid="pmlrk8rNXG" dmcf-ptype="general">KAIST는 김재철AI대학원 주재걸 석좌교수 연구팀이 관찰자 시점의 영상만을 활용해 영상 속 인물이 실제로 보고 있었을 장면을 정밀하게 생성하는 인공지능 모델 ‘에고엑스(EgoX)’를 개발했다고 23일 밝혔다.</p> <p contents-hash="42ad1d37042832081c194e78b42403d73c6a6bbcfab7ecfd66965d50c77815bd" dmcf-pid="UsSmE6mjZY" dmcf-ptype="general">최근 증강현실(AR), 가상현실(VR), AI 로봇 기술이 빠르게 발전하면서 ‘내가 직접 보는 장면’을 그대로 담은 1인칭 시점 영상의 중요성이 커지고 있다. 그러나 고품질의 1인칭 영상을 얻기 위해서는 사용자가 고가의 액션캠이나 스마트 글래스를 직접 착용해야 하는 한계가 있었다.</p> <p contents-hash="51f96b209f0795fdc7c88175e70235c42d06738c523d5e8396e9ceafe75bbdf5" dmcf-pid="uOvsDPsA1W" dmcf-ptype="general">이번 기술은 단순히 화면을 회전시키는 수준을 넘어, 인물의 위치와 자세, 주변 공간의 3차원(3D) 구조를 종합적으로 이해한 뒤 이를 기반으로 1인칭 시점 영상을 재구성한다는 점이 특징이다.</p> <p contents-hash="c2bf99ffd94f3685557ebab45d1e4409dddb775a29830c6bb5f60d8b614e8d0c" dmcf-pid="7ITOwQOcZy" dmcf-ptype="general">기존 기술은 정지 이미지만 변환하거나 4대 이상의 카메라 영상이 필요한 경우가 많았다. 또한 빛의 방향이나 움직임이 복잡한 동영상에서는 화면이 어색해지는 문제가 있었다.</p> <figure class="figure_frm origin_fig" contents-hash="a4bcf660256d79293f657371b93f0253ae4a212a705c824e8c2230be1d66e64f" dmcf-pid="zCyIrxIkZT" dmcf-ptype="figure"> <p class="link_figure"><img alt="3인칭 시점을 1인칭으로 변환하는 에고엑스 기술(AI생성이미지).[KAIST 제공]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202602/23/ned/20260223082127573nnob.jpg" data-org-width="1024" dmcf-mid="tGtYvoYCY5" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202602/23/ned/20260223082127573nnob.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 3인칭 시점을 1인칭으로 변환하는 에고엑스 기술(AI생성이미지).[KAIST 제공] </figcaption> </figure> <p contents-hash="4c298021e20084eebc4d0ef47121f84e420fbcfd4590feb087decce40519c81a" dmcf-pid="qhWCmMCEtv" dmcf-ptype="general">반면 에고엑스는 단 하나의 3인칭 시점 영상만으로도 고품질의 1인칭 영상을 생성할 수 있다. 연구팀은 특히 인물의 머리 움직임과 실제 시야 사이의 상관관계를 정밀하게 모델링함으로써, 고개를 돌릴 때 시야가 자연스럽게 전환되는 모습까지 사실적으로 구현하는 데 성공했다.</p> <p contents-hash="01e32de1eab2672a25a795a63049899cd84fb149de33042e63985502ece66e82" dmcf-pid="BlYhsRhDZS" dmcf-ptype="general">이 기술은 특정 환경에 국한되지 않고 요리, 운동, 작업 등 다양한 일상 상황에서도 안정적인 성능을 보였다. 이를 통해 별도의 웨어러블 장치를 착용하지 않고도 기존에 축적된 영상으로부터 고품질의 1인칭 시점 데이터를 확보할 수 있는 새로운 가능성을 열었다는 평가를 받고 있다.</p> <p contents-hash="cfce25f96633e80e64829773d83713a47dad8946bcb66a246a62669b5223a090" dmcf-pid="bSGlOelwGl" dmcf-ptype="general">에고엑스는 향후 다양한 산업 분야에 상당한 파급력을 미칠 것으로 기대된다. AR·VR 및 메타버스 분야에서는 일반 영상을 사용자가 직접 체험하는 듯한 몰입형 콘텐츠로 전환해 사용자 경험을 극대화할 수 있다.</p> <p contents-hash="ea50c0df44eea1293b18a8ac282cbb85d4d7d821c612bcdf527e883073b100f2" dmcf-pid="KHFGTgGhth" dmcf-ptype="general">주재걸 석좌교수는 “이번 연구는 단순한 영상 변환 기술을 넘어, 인공지능이 사람의 ‘시야’와 ‘공간 이해’를 학습해 재구성했다는 점에서 의미가 크다”며 “앞으로는 기존에 촬영된 영상만으로도 누구나 몰입형 콘텐츠를 제작하고 경험할 수 있는 환경이 열릴 것으로 기대한다”고 말했다.</p> <p contents-hash="1ed381e16ba7116449848a23f91020d4b233d65b22acf6ddcaa19588287ff336" dmcf-pid="9X3HyaHlHC" dmcf-ptype="general">이번 연구결과는 6월 미국 콜로라도에서 열리는 국제 학술대회 ‘CVPR’에서 공식 발표될 예정이다.</p> </section> </div> <p class="" data-translation="true">Copyright © 헤럴드경제. 무단전재 및 재배포 금지.</p> 관련자료 이전 삼성, '뉴 갤럭시 AI 구독클럽' 강화…3년형 신설·보장 확대 02-23 다음 [K-AI이노베이터⑭] 제논 ""한국의 팔란티어 목표⋯에이전트 업무 자동화 확장" 02-23 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.