망고부스트 “까다로운 AI 최적화 쉽게… AMD 잠재력 극대화” [AMD 인스팅트] 작성일 04-26 21 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">전문 인력 없이도 GPU 성능 2~3배 <br>AMD 기반 AI 인프라 진입장벽 낮춰</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="Bw1bTkB3RO"> <p contents-hash="7ce3b2270805009fa8dd39b33780d1e1bb2c87603e954012dcfcc128e8454e1c" dmcf-pid="brtKyEb0Rs" dmcf-ptype="general">AMD의 인공지능(AI) 연산 특화 '인스팅트(Instinct)' 그래픽처리장치(GPU)는 이론적으로는 경쟁사인 엔비디아의 동 세대 GPU 대비 손색없는 성능을 제시해왔다. 하지만 실제 현장에서는 이 같은 성능 잠재력을 충분히 끌어내기 어렵다는 평가가 많았다. 상대적으로 얇은 사용자층과 사례 부족, 소프트웨어 지원과 생태계 한계 등 여러 요인이 복합적으로 작용해 왔다.</p> <p contents-hash="c543b93b15445d3e4f0cae048fbdab0e11ee5ce1f9d4c96657cc7025e12656e9" dmcf-pid="KCU4XsfzLm" dmcf-ptype="general">이 같은 상황에서 국내 기업 '망고부스트'가 AMD 기반 AI 인프라 환경에서 누구나 사용할 수 있는 '최적화' 기술을 제시하며 주목받고 있다.</p> <div contents-hash="8fdbd3515cdc46dd683eb10d23c10a5b60cfad7fdc9addc02a74d975358ad5f4" dmcf-pid="9hu8ZO4qdr" dmcf-ptype="general"> 망고부스트는 22일(현지시각) 싱가포르에서 아태 지역 미디어를 대상으로 열린 'AMD 인스팅트&ROCm 워크숍 세션'에서 AMD의 GPU 기반 환경에서 거대언어모델(LLM) 서비스 성능을 최적화하는 'LLM부스트(LLMBoost)' 사례를 공개했다. 이 'LLM부스트'는 기존에 전문 엔지니어가 수행해야 했던 AMD 기술 기반 환경에서의 성능 최적화 작업을 자동화해 전문 인력이 부족한 환경에서도 빠르고 손쉽게 하드웨어의 역량 활용을 극대화할 수 있도록 한 것이 특징이다. </div> <figure class="figure_frm origin_fig" contents-hash="5c549e2f51782b5cc1ca88ea36c2873536dbc9ff497e671f5c48a84f5fbc0bfb" data-idxno="441700" data-type="photo" dmcf-pid="2l765I8Bnw" dmcf-ptype="figure"> <p class="link_figure"><img alt="김장우 망고부스트 대표 / 싱가포르=권용만 기자" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202604/26/552810-SDi8XcZ/20260426060018826dxsn.jpg" data-org-width="600" dmcf-mid="7epfHmV7eh" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202604/26/552810-SDi8XcZ/20260426060018826dxsn.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 김장우 망고부스트 대표 / 싱가포르=권용만 기자 </figcaption> </figure> <p contents-hash="25f7c091e50998e5fa0ea9b88def1c0770b13d40d6b7358eec44706bf0f131e4" dmcf-pid="VSzP1C6bdD" dmcf-ptype="general">김장우 망고부스트 대표는 "망고부스트는 시스템 전문 기업으로 애플리케이션 분석을 기반으로 문제 해결이 가능한 소프트웨어와 하드웨어 솔루션을 모두 제공한다"며 "AI 엔터프라이즈 소프트웨어부터 AI 시스템, 스토리지와 네트워킹 하드웨어까지 전 영역을 갖추고 있다"고 밝혔다. </p> <p contents-hash="1f9fce304d095d16dd0acd79872d4ae6308387573e2ebd5bc77a2e52faaa1b4a" dmcf-pid="fvqQthPKME" dmcf-ptype="general">이어 "AMD 고객 상당수가 소프트웨어 문제로 기대 수준의 성능을 확보하지 못하고 있다"며 "오픈소스 기술을 단순 통합하는 수준으로는 작동은 하겠지만 성능 향상은 기대하기 어렵다"고 지적했다. 또한 "하드웨어 수준의 성능 최적화는 지금까지는 소수 대기업 엔지니어만 가능한 영역이었고, 대부분의 기업은 GPU를 확보하고도 최적화 역량이 부족해 이를 충분히 활용하지 못한다"고 덧붙였다. </p> <div contents-hash="657edd42c1003b24a767c0d81d0df985cb995f6a105e7be9bd767b3b99f6453e" dmcf-pid="4TBxFlQ9ek" dmcf-ptype="general"> 기술 환경의 빠른 변화도 장애 요인이다. 김 대표는 "최신 기술은 각 영역에 분산돼 있어 찾기 어렵고, 최신 AI 연구 결과와 실제 구현 사이에도 시차가 존재한다"며 "오픈소스 기반 기술만으로는 기업 환경이 요구하는 신뢰성을 확보하기 어렵다"고 설명했다. </div> <figure class="figure_frm origin_fig" contents-hash="398e12c1a8f7573838d8dd8f64d5380ab7233ce309084c3c3f70cf80ba4e60ad" data-idxno="441701" data-type="photo" dmcf-pid="8ybM3Sx2nc" dmcf-ptype="figure"> <p class="link_figure"><img alt="망고부스트 'LLM부스트'의 자동 최적화를 통한 성능 향상 효과 / 망고부스트" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202604/26/552810-SDi8XcZ/20260426060020168yhrj.jpg" data-org-width="600" dmcf-mid="zndk40cnMC" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202604/26/552810-SDi8XcZ/20260426060020168yhrj.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 망고부스트 'LLM부스트'의 자동 최적화를 통한 성능 향상 효과 / 망고부스트 </figcaption> </figure> <p contents-hash="709c6548694ecab09fe221d75fa72c1d866516c4a15917cb3341bf7bc1ebfa87" dmcf-pid="6WKR0vMVeA" dmcf-ptype="general">망고부스트의 'LLM부스트(LLMBoost)'는 이러한 기업들의 AI 운영 환경 최적화 관련 문제를 해결하는 소프트웨어 솔루션이다. 'LLM부스트'는 오픈소스 프로젝트들에서 부족한 추론 관련 기능이나 가시성을 위한 텔레메트리 기술, 이종 GPU 구성 최적화 지원 등의 역량을 추가하고, 이를 자동 최적화 가능한 턴키 방식 풀스택 소프트웨어 패키지로 묶었다. 이 솔루션은 망고부스트의 고객 지원과 결합돼 기업용 환경을 위한 신뢰성 요건을 충족하며, 망고부스트의 자체 데이터처리장치(DPU) 솔루션과 결합되면 더 큰 효과를 발휘할 수 있다.</p> <p contents-hash="352a245445bb852f73be2bae5d3589d665061588f369f5f030015c2eed6b9b70" dmcf-pid="PY9epTRfnj" dmcf-ptype="general">'LLM부스트'는 하드웨어와 AI 애플리케이션 사이에서 자동 최적화와 멀티 노드 확장성 제공은 물론, 서로 다른 GPU로 구성된 이종 환경에서도 성능을 최적화할 수 있다. 김 대표는 "핵심은 이 소프트웨어가 바로 사용 가능하고 즉시 적용할 수 있다는 것"이라며 "기본적으로 우리는 최적의 구성을 찾기 위한 모든 요소를 탐색하고, 병목 현상이 발견하는 부분을 신속하게 수정할 수 있다"고 말했다. </p> <p contents-hash="5a4df19c5973ef3d39bea2c0c8014f967f70335b908af0ca3ad9b1ac05b2a4d0" dmcf-pid="QG2dUye4JN" dmcf-ptype="general">예를 들어 기업이 추론 환경의 성능 최적화를 위해 vLLM을 직접 최적화하려면 144개의 소프트웨어 파라미터를 일일이 조정해야 하는 어려운 과정이 필요하다. 반면 LLM부스트의 자동 설정은 몇 주가 걸리던 최적화 작업을 몇 초 수준으로 줄이면서 최적화되지 않은 기본 상태보다 2~3배의 성능을 발휘한다. 훈련에서는 이러한 최적화 설정 조합이 더 복잡해지는데 LLM부스트는 이 또한 모델과 커뮤니케이션 영역까지의 자동 최적화를 통해 최대 2배 성능 향상이 가능했다는 사례를 제시했다.</p> <div contents-hash="216229a0eaa24737b6befe546c7f1b7ad52ddc345813005b341832dd846b5c1e" dmcf-pid="xHVJuWd8da" dmcf-ptype="general"> 멀티 노드 환경에서의 최적화와 성능 향상도 눈에 띈다. 망고부스트는 AMD MI300X 기반 8GPU 싱글 노드 대비 4노드 32GPU 구성에서 4.3배 성능 향상을 기록했고, 네트워크 커뮤니케이션 최적화로는 기본 RCCL 대비 4노드에서 4.48배까지 높은 성능 향상을 제공했다고 제시했다. 김장우 대표는 이에 대해 "이러한 최적화를 통해 실제 당시 MI300X가 엔비디아의 H100과 동등한 애플리케이션 성능을 낼 수 있음을 입증했다"고 언급했다. </div> <figure class="figure_frm origin_fig" contents-hash="d86449d975cb4ae912b0873e801104719638f3d43246dd54d9c2b0b033bae71f" data-idxno="441702" data-type="photo" dmcf-pid="ydIXcMHlLg" dmcf-ptype="figure"> <p class="link_figure"><img alt="최신 MI355X에서도 큰 폭의 성능 향상을 제공할 수 있다. / 망고부스트" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202604/26/552810-SDi8XcZ/20260426060021526gdun.jpg" data-org-width="600" dmcf-mid="q4mYNPWIdI" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202604/26/552810-SDi8XcZ/20260426060021526gdun.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 최신 MI355X에서도 큰 폭의 성능 향상을 제공할 수 있다. / 망고부스트 </figcaption> </figure> <p contents-hash="e13dc42382744f5213644f84a2cf4258cac53917c30b69f35df70bf77184e915" dmcf-pid="WRsGjQYCdo" dmcf-ptype="general">이러한 성과는 최신 세대인 'MI355X'에도 적용된다. 망고부스트는 LLM부스트를 사용한 MI355X 기반 시스템이 딥시크 3.2 모델 기반에서 기본 vLLM 사용시보다 처리량은 1.61배 높고 첫 토큰까지의 대기시간은 416배 줄였다고 제시했다. 큐원3(Qwen3)-넥스트-80B-A3BB-인스트럭트 모델에서도 LLM부스트는 기본 vLLM 대비 처리량을 1.26배 높이고 첫 토큰까지의 대기시간은 51.7배 줄였다고 소개됐다.</p> <p contents-hash="eb44548e7adf4f8766458443898f42e247d698d875540f5d139b225a6719301e" dmcf-pid="YeOHAxGheL" dmcf-ptype="general">김장우 대표는 "LLM부스트는 AMD가 제시하는 하드웨어 경쟁력에 대한 기대치를 현실화한다"며 "이를 기반으로 다양한 서버 공급업체들과도 협업하고 있다"고 밝혔다. 또한 AMD와의 협력을 통해 단일 서버나 클러스터 수준의 최적화는 물론, 원격지 데이터센터와의 '멀티 리전' 구성이나 서로 다른 세대 아키텍처의 GPU가 섞인 '이종 구성'에 대해서도 성능을 실증했다고 덧붙였다.</p> <p contents-hash="f7210c303bcb177b795841ed857e1b4f74091af73af50c85ff3b4f6fab978170" dmcf-pid="GdIXcMHlLn" dmcf-ptype="general">망고부스트는 LLM부스트의 최적화에 대해 "새로운 모델에 대한 대응에는 특허 출원 중인 기술로 많은 프로세스를 자동화하고 있다"며 "새 모델 등장에도 며칠 안에 초기 대응이 가능하다"고 밝혔다. 이어 "필요 시 즉시 투입 가능한 엔지니어링 조직을 통해 고객 환경에 직접 대응할 수 있다"고 밝혔다.</p> <p contents-hash="8e115996abe3f9863e8ed2991f5f991ddb21dfaaad1091e8f5eccbdd4fa9eaef" dmcf-pid="HJCZkRXSJi" dmcf-ptype="general">싱가포르=권용만 기자<br>yongman.kwon@chosunbiz.com</p> </section> </div> <p class="" data-translation="true">Copyright © IT조선. 무단전재 및 재배포 금지.</p> 관련자료 이전 “메타, 돈 벌려고 방치하나” 여전한 페북·인스타 사기광고 04-26 다음 AI·규제 시대, IT 리더를 위한 생존 가이드…"오픈소스 레질리언스가 해법" (종합) 04-26 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.