리벨리온 '리벨100' 출격 완료…추론 AI서비스 정조준

작성일 04-19

<div id="layerTranslateNotice" style="display:none;"></div> 
 <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
 <section dmcf-sid="bLZ67o0HSX">
 [반도체레이다] 단일 카드로 GPT-oss 구동, 최신 모델 MiniMax까지 검증 완료
 칩렛·쿼드 칩 구조로 확장성 확보… "랙스케일 넘어 클러스터 대응 준비"
 <hr class="line_divider" contents-hash="1750feb7875dad96950ee3f3e2783ea5ba4fa01c78773ab477ba4a26028e5994" dmcf-pid="2atxBNu5SY" dmcf-ptype="line">
 <figure class="figure_frm origin_fig" contents-hash="78ee9a5cc6c340a6e71abcdf091c89f5ce45d2d8c6beeaef4fd98e56e17eb917" dmcf-pid="VNFMbj71WW" dmcf-ptype="figure">
 <img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202604/19/552796-pzfp7fF/20260419120309361uwis.jpg" data-org-width="640" dmcf-mid="BtnvEFjJSZ" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202604/19/552796-pzfp7fF/20260419120309361uwis.jpg" width="658">
 </figure>
 [디지털데일리 고성현기자] 리벨리온이 자체 개발한 인공지능(AI) 반도체 칩인 '리벨(REBEL)100'의 성능 지표를 공개하며 본격적인 데이터센터 시장 공략에 나선다. 단일 카드와 서버를 넘어 랙(Rack) 단위 검증도 마치며 실질적인 해외 시장 진출을 끝마쳤다는 뜻이다. 이와 함께 클러스터 레벨의 하드웨어·소프트웨어를 구축해 AI 인프라 시장에 발판을 넓히겠다는 목표도 제시했다.
 19일 리벨리온은 2세대 칩 '리벨100'을 활용해 GPT-OSS 120B, 미니맥스(MiniMax) M2.1 등 모델을 구동한 벤치마크 지표를 공개했다. GPT-OSS는 오픈AI가 공개한 모델 가중치 공개(Open Weight) 모델이며 미니맥스는 중국 미니맥스가 개발한 최신 코딩 에이전트용 오픈소스 모델이다.
 리벨100은 리벨리온이 양산한 2세대 반도체 칩이다. 아톰(ATOM)에 이어 상용화한 아키텍처 '리벨' 다이를 4개로 연결해 AI 연산 처리 성능을 높였고, 내부 연결을 UCIe-A(2.0) 기반 칩렛으로 구현해 확장 유연성을 확보했고, HBM3E 144GB 채용으로 대응 가능한 모델 용량과 대역폭을 확대했다. 연산 성능은 FP8 기준 16페타플롭스(PFLOPS)며 효율 모드 기준 4.0TB/s, 성능 모드 기준 4.8TB/s의 메모리 대역폭을 갖췄다.
 리벨리온은 블로그에서 리벨100 카드 한 장만으로 GPT-OSS 120B를 구동하는 시연을 소개했다. 넉넉한 HBM3E 용량과 높은 저전력·고성능 연산 처리 능력을 기반으로 빠른 속도 대응이 가능하다는 내용이다.
 AI 실행 벤치마크 중 하나인 출력 토큰 당 생성 시간(TPOT)에서도 의미 있는 수치를 제시했다. 리벨100 카드 한 장으로 GPT-OSS 120B를 구동하는데 3.2ms TPOT를 달성하며 3ms 중반대로 예상되는 H200 대비 근소우위의 성능을 보였다. 특히 타 경쟁사 카드가 2장 기반 구동으로 기록한 5.8ms TPOT를 훨씬 앞서는 성능이다. TPOT는 챗봇이 답변을 생성할 때 토큰 간 출력 속도를 의미하는 지표로 사용자가 체감하는 응답 속도와 직결된다.
 리벨리온은 이러한 지표가 엔비디아 GPU 기반 인프라보다 xPU 카드 수를 줄이면서도 유사한 체감 성능을 낼 수 있다고 강조했다. 데이터센터 내 추론 서비스용 인프라 비용은 줄이고, 전력을 낮추면서도 유사한 성능을 내 수익성을 높일 수 있다는 뜻이다. 특히 자체 검증한 전성비에서는 H200보다 3배 이상 높은 성능을 내는 모습을 보였다.
 비교적 가장 최신 모델인 미니맥스 M2.1을 구동한 점에도 의미를 부여했다. 기존에 있던 AI 모델뿐 아니라 새롭게 등장할 모델에 대해서도 발빠르게 대응할 수 있다는 의미다. 특히 미니맥스는 코딩 에이전트를 비롯 실제 서비스형 애플리케이션에서 활용도가 높은 오픈소스 모델로, 누적 사용자 수 2억명 이상을 확보한 것으로 알려져 있다.
 정윤석 리벨리온 최고전략책임자(CSO)는 "이번 검증은 단순히 모델 하나를 돌렸다기보다 실제 고객들이 쓰고 있는 최신 모델에 바로 대응할 수 있다는 것이 핵심"이라며 "얼마 나오지 않은 미니맥스를 돌릴 수 있던 것도 하드웨어뿐 아니라 소프트웨어 준비가 같이 준비된 덕이다. 이는 리벨리온의 칩이 실제 서비스에 바로 적용할 수 있는 수준까지 준비됐다는 것"이라고 말했다.
 특히 이 과정에 적용한 칩렛(Chiplet) 구조의 중요성을 강조했다. 패키지 내 개별 칩 기능(Die)을 별도로 제작해 붙인 만큼 고객사 니즈에 따라 유연하게 변경 가능하고, 서버나 랙이 수없이 연결되는 대규모 데이터센터 구조 대응에도 유리하다는 취지다.
 정윤석 CSO는 "데이터센터용 AI칩을 칩렛을 구현한 것은 국내뿐 아니라 미국 외(Non-US) 기업 중에서도 최초일 것"이라며 "칩 안에 여러 다이가 들어가 있어 소프트웨어적으로도 스케일업을 고려할 수 있다. 따라서 이번 데모 역시 단순 싱글 칩 데모가 아닌 스케일업 구조가 반영된 결과"라고 덧붙였다.
 이러한 칩 확장성을 바탕으로 랙스케일(Rack Scale)까지 확장 가능한 시스템을 구축할 것이라는 계획도 내놨다. 단일 카드나 카드가 여러대 들어가는 컴퓨트 트레이 기반 서버가 아닌, 실제로 랙 단위 서버를 운용할 수 있는 구조로 운영하겠다는 목표다.
 리벨리온이 개발 중인 서버 랙은 컴퓨트 트레이 한 대당 리벨 카드 8장이 들어가며 랙 기준으로는 한 대당 최대 48장(컴퓨트 트레이 6대)이 들어간다. 리벨리온은 리벨100 기반 서버 랙을 하반기 중 내놓을 계획이다.
 장기적으로는 클러스터(Cluster) 구조를 지원하는 방식도 전개한다. 클러스터는 랙과 랙을 수십~수백대 규모로 연결해 운영하는 방식으로, 클라우드를 활용해 여러개 모델을 다수의 사용자에게 서비스하는 대규모 데이터센터 구조다. 이 구조를 과점하는 기업이 엔비디아인 만큼 관련 네트워크·인터커넥트 기술이 까다로워 가장 진입하기 어려운 분야로 꼽힌다.
 정 CSO는 "지금은 단일 카드 단계에서 성능과 안정성을 보여준 것이고 그 다음은 멀티카드, 서버 단위를 넘어 서버 간 연결을 어떻게 하느냐가 중요한 포인트"라며 "에이전트 AI 애플리케이션이 여러 모델로 구성돼 있고 모델 간 소통하는 방식인 만큼, 이러한 모델 간 시스템을 이해하고 vLLM 등과 협업해 분산 추론 환경까지 대응하는 게 목표"라고 밝혔다.
 그러면서 "단일 모델을 구동하는 시대는 끝났고, 이제는 (여러 모델을 규합한) 에이전트 AI를 잘 할 수 있도록 준비하겠다"고 말했다.
 </section> 
 </div> 
 Copyright © 디지털데일리. All rights reserved. 무단 전재 및 재배포 금지.

이전

“태양광 발전소 설치 11일→4시간으로 단축… ‘AI 에이전트’에 맡겨보세요”

04-19
다음

주파수 '모드변환'으로 게임할 때 기기 발열 줄인다

04-19

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

먹튀폴리스

리벨리온 '리벨100' 출격 완료…추론 AI서비스 정조준

멤버랭킹

관련자료

멤버랭킹