MS, 피지컬 AI 경쟁 참전…로보틱스 모델 '로-알파' 공개 작성일 01-22 24 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="772im6qFIp"> <figure class="figure_frm origin_fig" contents-hash="6df1b4c206751e0e844c9da3561a55b483334a0173bfe0a9f1387deb76f55a07" dmcf-pid="zzVnsPB3m0" dmcf-ptype="figure"> <p class="link_figure"><img alt="마이크로소프트(MS)의 첫 로보틱스 모델 '로-알파'가 탑재된 중국 유니트리 G1 휴머노이드 로봇. [사진=마이크로소프트 공식 홈페이지 영상 캡처]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202601/22/etimesi/20260122193943969xpjg.png" data-org-width="700" dmcf-mid="UMzXblEoIu" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202601/22/etimesi/20260122193943969xpjg.png" width="658"></p> <figcaption class="txt_caption default_figure"> 마이크로소프트(MS)의 첫 로보틱스 모델 '로-알파'가 탑재된 중국 유니트리 G1 휴머노이드 로봇. [사진=마이크로소프트 공식 홈페이지 영상 캡처] </figcaption> </figure> <p contents-hash="ced1e2b761391411a6f931ff43fddbf5c165d14dc69d33e06c44266fef5d3421" dmcf-pid="qqfLOQb0E3" dmcf-ptype="general">마이크로소프트(MS)가 피지컬 인공지능(AI) 경쟁에 참전한다.</p> <p contents-hash="465b70b15a0233ee8e1925e81da6a3eefa6d4792940b49529cfae8562700466c" dmcf-pid="BB4oIxKpwF" dmcf-ptype="general">MS 리서치는 자사 AI 모델 '파이' 시리즈 모델을 활용한 시각언어행동(VLA) 모델을 기반으로 자사 첫 번째 로보틱스 모델 '로-알파'(Rho-alpha, ρα)를 개발했다고 21일(현지시간) 밝혔다.</p> <p contents-hash="50afcb123a4d3e2840f67d3096451fe3c909fc6d2e29ecf664fd0e47fb03e6a2" dmcf-pid="bb8gCM9UDt" dmcf-ptype="general">로-알파는 자연어 명령을 통해 로봇이 '양손 조작'을 수행할 수 있도록 신호를 변환한다. 예컨대 “빨간색 전선을 당겨 빼세요” ““위쪽 스위치를 켜세요”와 같은 명령어를 이해하고 행동으로 옮긴다. 시각 정보를 인식해 행동으로 옮기는 VLA 모델을 활용했다.</p> <p contents-hash="5dd3550f041592f2bf94652ec48a8f281c6afed9b2f6e87fa89ebd228615366b" dmcf-pid="KK6ahR2uw1" dmcf-ptype="general">MS는 인지·학습 모달리티의 기존 VLA 모델을 넘어 '촉각 센싱'을 새롭게 접목했다. MS는 이를 VLA+로 명명했다. 시각 외 새로운 감각을 깨친 것으로, 더욱 정교한 행동 제어가 가능할 것으로 기대된다. MS는 힘(force) 등 추가적인 센싱 모달리티 확장을 위한 기술 고도화를 하고 있다.<br></p> <figure class="figure_frm origin_fig" contents-hash="6f3717051391a071ccbad64d4f3a665c01224f0a4494cddff1ed52f32eff10e4" dmcf-pid="99PNleV7m5" dmcf-ptype="figure"> <p class="link_figure"><img alt="MS 리서치는 자사 AI 모델 '파이' 시리즈 모델을 활용한 시각언어행동(VLA) 모델을 기반으로 자사 첫 번째 로보틱스 모델 '로-알파'(Rho-alpha, ρα)를 개발했다고 21일(현지시간) 밝혔다." class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202601/22/etimesi/20260122193945263nfmq.png" data-org-width="640" dmcf-mid="uQBREVUZIU" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202601/22/etimesi/20260122193945263nfmq.png" width="658"></p> <figcaption class="txt_caption default_figure"> MS 리서치는 자사 AI 모델 '파이' 시리즈 모델을 활용한 시각언어행동(VLA) 모델을 기반으로 자사 첫 번째 로보틱스 모델 '로-알파'(Rho-alpha, ρα)를 개발했다고 21일(현지시간) 밝혔다. </figcaption> </figure> <p contents-hash="5d7dc317426ad0c53ccb91a9a69c3496a81aaefd6614b70bb9cde76b095ae44c" dmcf-pid="22QjSdfzrZ" dmcf-ptype="general">로-알파의 촉각 인지 행동 기술은 실제 로봇의 궤적 데이터와 시뮬레이션 작업, 웹 규모 시각 질의응답 데이터 공동 학습으로 구현됐다. 특히 엔비디아 로봇 시뮬레이션 플랫폼 '아이작 심'을 활용해 합성 데이터를 생성, 실제 시연 데이터셋과 결합했다.</p> <p contents-hash="1a201cb5cb54136709b5eae865fd84ff8d78d6ffdc55ce0dc2eeb86b5ab64908" dmcf-pid="VVxAvJ4qwX" dmcf-ptype="general">지난 수십 년간 로봇은 작업이 예측 가능하고 엄격히 정해진 조립 라인과 같은 구조화된 환경에서 탁월한 성과를 보여 왔습니다. 하지만 이제 물리적 시스템을 대상으로 한 시각-언어-행동(Vision-Language-Action, VLA) 모델의 등장은, 로봇이 복잡하고 정해지지 않은 덜 구조화된 환경에서도 인간과 함께 자율적으로 인지하고 추론하며 행동할 수 있도록 지원하고 있습니다.</p> <p contents-hash="6e02a6e4a5845ad84bb76e26f6d0f9b210657acb0fb97fb11efb878060873516" dmcf-pid="ffMcTi8BOH" dmcf-ptype="general">애슐리 로렌스 MS 리서치 액셀러레이터 부사장은 “피지컬 AI가 로보틱스를 재정의하고 있다”며 “로봇이 복잡하고 예측 불가능한 환경에서 인지·추론·행동할 수 있도록 지원한다”고 했다.</p> <p contents-hash="c40e397f67f193c9f41f0d824d845700888f63a1a8c9938e4e8ac80ca541ec2a" dmcf-pid="44Rkyn6bwG" dmcf-ptype="general">현대인 기자 modernman@etnews.com</p> </section> </div> <p class="" data-translation="true">Copyright © 전자신문. 무단전재 및 재배포 금지.</p> 관련자료 이전 다이어트 프로그램 출신 임유주..."113kg·당뇨로 임신 불가" 01-22 다음 ‘겨울의 빛’ 시린 현실, 그래도 누군가 곁에 있다면[스경X현장] 01-22 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.