레드햇, 소프트뱅크 AI-RAN 오케스트레이터에 ‘llm-d’ 탑재 작성일 03-10 7 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="8USxxPcnSK"> <figure class="figure_frm origin_fig" contents-hash="016036a982e555ffa7793836a877fbe8fafa93abd4ddfe15a82fa21c82ad6037" dmcf-pid="6uvMMQkLyb" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202603/10/552796-pzfp7fF/20260310103526558ytlg.jpg" data-org-width="640" dmcf-mid="4JpkkAyOC9" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202603/10/552796-pzfp7fF/20260310103526558ytlg.jpg" width="658"></p> </figure> <p contents-hash="9cc9a6564ef872e4ef99307cc6a986ce2a51c89431e610fbc8ae8f47748017f6" dmcf-pid="P7TRRxEoSB" dmcf-ptype="general">[디지털데일리 이안나기자] 레드햇이 소프트뱅크와 손잡고 통신망 엣지 환경에서 AI 추론 워크로드를 분산 처리하는 오픈소스 프레임워크 'llm-d'를 소프트뱅크의 AI-RAN 오케스트레이터에 탑재했다.</p> <p contents-hash="e5d4e651d2dd939ced4ad8ebd4f388651aaa99f9daf1ba7df859863d6faba22d" dmcf-pid="QzyeeMDgyq" dmcf-ptype="general">글로벌 오픈소스 솔루션 기업 레드햇은 소프트뱅크와 협력해 llm-d를 소프트뱅크의 AI-RAN 오케스트레이터 '아이트라스(AITRAS)'에 통합했다고 10일 밝혔다. llm-d는 레드햇을 포함한 업계 주요 기업들이 공동 설립한 오픈소스 프레임워크로, 무선접속망(RAN) 환경에서 대규모 언어 모델(LLM) 추론을 동적·지능적으로 분산 처리하도록 설계됐다.</p> <p contents-hash="2dd063ba5e29d2c7bcbb9ab2ab62af714e1f192f73b71f39155410526fa8e3c7" dmcf-pid="xInFF1fzlz" dmcf-ptype="general">생성형 AI와 트랜스포머 기반 언어 모델의 확산으로 통신 엣지 환경에서도 AI 연산 수요가 빠르게 늘고 있다. 통신 사업자 입장에서는 기존 RAN 기능과 AI 워크로드를 동일한 하드웨어에서 효율적으로 공존시키는 것이 핵심 과제로 떠오르고 있다.</p> <p contents-hash="6cddc5ed4152efb75cf2dff1d139fb2a2b206d7f7e4787ee78420f30f66dccf8" dmcf-pid="yV5ggLCEv7" dmcf-ptype="general">기술적으로 llm-d는 단일 GPU 노드 환경에서 강점을 보이는 vLLM을 멀티 노드 분산 환경으로 확장하는 역할을 한다. 쿠버네티스를 활용해 여러 노드에 걸쳐 vLLM을 오케스트레이션하며, 아이트라스와 연동해 RAN 워크로드와 LLM 추론 요청을 함께 관리한다.</p> <p contents-hash="d56784b0781eeb1a8a24ab4286678e822ea385b432e6035a57ce47c6aa46d295" dmcf-pid="Wf1aaohDyu" dmcf-ptype="general">특히 LLM 추론을 연산 집약적인 프리필(prefill) 단계와 메모리 대역폭 중심의 디코드(decode) 단계로 분리해 각각에 최적화된 GPU 자원을 동적으로 할당하는 방식을 지원한다. 이를 통해 AI 워크로드가 동일한 하드웨어에서 구동되는 핵심 RAN 기능에 영향을 주지 않도록 보호하며 네트워크 복원력과 서비스 품질(QoS)을 유지할 수 있다. 아이트라스는 사용자 요청 변동에 따라 프리필·디코드 작업을 자동으로 확장·조정해 지연 시간을 줄이고 전력 소비도 개선할 수 있다고 양사는 설명했다.</p> <p contents-hash="749afc2bf84b230bf8b5ecea459be5972eadfe441d49b4b4aee27c09ba76999c" dmcf-pid="Y4tNNglwTU" dmcf-ptype="general">이번 통합으로 소프트뱅크는 암(Arm) 기반 시스템을 포함한 전력 효율적인 아키텍처에서 고성능 추론과 RAN 워크로드를 함께 실행할 수 있게 됐다. 레드햇과 소프트뱅크는 이번 협력이 5G를 넘어 6G 시대 AI-RAN 상용화의 기반이 될 것으로 보고 있다.</p> </section> </div> <p class="" data-translation="true">Copyright © 디지털데일리. All rights reserved. 무단 전재 및 재배포 금지.</p> 관련자료 이전 '4월 컴백' 킥플립, 미니 앨범 'My First Kick' 프로모션 스케줄러 공개 03-10 다음 ‘나는 SOLO’ 30기 영숙, 상철과 데이트 중 ‘갑분싸’ 사태 발발 03-10 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.