메모리 업계 HBM4 이후 차세대 기술 'HBM-PNM' 연구 본격화 작성일 05-11 45 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="GVIpj7b0mM"> <figure class="figure_frm origin_fig" contents-hash="57ba49fa9e5525642865a71277e9a51fb355759e6afcbc7c4a41ef4721ebdf52" dmcf-pid="HfCUAzKprx" dmcf-ptype="figure"> <p class="link_figure"><img alt="〈이미지 출처 = AMMA(A Multi-Chiplet Memory-Centric Architecture) for Low-Latency 1M Context Attention Serving 〉" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202605/11/etimesi/20260511131357468kmru.png" data-org-width="700" dmcf-mid="YfCUAzKprR" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202605/11/etimesi/20260511131357468kmru.png" width="658"></p> <figcaption class="txt_caption default_figure"> 〈이미지 출처 = AMMA(A Multi-Chiplet Memory-Centric Architecture) for Low-Latency 1M Context Attention Serving 〉 </figcaption> </figure> <p contents-hash="228ef0879717af016a27542193238827f1d4bea1eee82e0510ad8745e2cfd514" dmcf-pid="X4hucq9UOQ" dmcf-ptype="general">메모리 반도체 업계가 HBM4 양산을 목전에 두고 차세대 기술 'HBM-PNM' 연구에 본격적으로 뛰어들고 있다. 그래픽카드(GPU) 중심 아키텍처의 한계를 넘어 메모리 자체에서 연산을 처리하는 '계산 가능 메모리' 중심 시대를 준비하는 움직임으로 주목된다.</p> <p contents-hash="c81b130fe90a8b9a68f4de947fec9cb92b0a72a0a450224eb0c94ec164115c82" dmcf-pid="Z8l7kB2uIP" dmcf-ptype="general">11일 업계에 따르면 삼성전자, 엔비디아, UC 샌디에이고, 컬럼비아 대학, 연세대 공동 연구팀은 최근 아카이브(arXiv)에 AMMA(A Multi-Chiplet Memory-Centric Architecture) 기술에 관한 논문을 발표하며 HBM-PNM 기술의 실현 가능성을 제시했다.</p> <p contents-hash="5aa6dd6ed1337ebcaf53ec0e837f6e5cf494bf8db15ba168448215f2a9709996" dmcf-pid="56SzEbV7D6" dmcf-ptype="general">PNM(Processing Near Memory)은 HBM 스택의 로직 다이(Logic Die)에 특별한 계산 유닛을 배치해 메모리 바로 옆에서 '직접' 연산을 수행하는 기술이다. 기존 PIM(Processing In Memory)이 메모리 셀 안에 계산 회로를 넣는 방식이었다면, PNM은 메모리 용량을 유지하면서도 훨씬 복잡하고 강력한 연산이 가능하다는 장점이 있다.</p> <p contents-hash="cccc6c63da5ba62af495eb56cd56f74ca89eebbe499a3b850148a65546992cac" dmcf-pid="1PvqDKfzw8" dmcf-ptype="general">현재 거대언어모델(LLM) 서비스의 최대 병목은 디코드 단계의 어텐션(Attention) 연산이다. 긴 문맥의 디코드 어텐션을 할 때 GPU는 계산 능력의 95% 이상을 놀리고 메모리 대역폭만 풀가동하는 상황이 된다.</p> <p contents-hash="ce0d4a872176741aa9ab3932680677e57dd19cfea1849f7afcc456fa15668e7a" dmcf-pid="tQTBw94qs4" dmcf-ptype="general">루빈(Rubin) GPU의 경우에도 패키지 면적의 67%, 전력의 73%를 차지하는 계산 다이(Compute Die)가 긴 문맥 상황에서는 실제로는 4~5% 정도밖에 활용되지 않는 것으로 분석됐다. 이는 자원 낭비이자, 전력 소비와 발열 문제를 키우는 주요 원인이다.</p> <p contents-hash="1bddeedf592156a3e102630c7a8b99306101449c9cebf4972fadc0ab22d4f3cf" dmcf-pid="FDqn5gAiwf" dmcf-ptype="general">HBM4부터 로직 다이가 5나노미터 이하 첨단 공정으로 제작되면서 PNM 구현의 기술적 장벽이 낮아졌다. 연구팀이 제안한 AMMA는 기존 GPU의 계산 다이를 제거하고 16개의 HBM-PNM 큐브를 4×4 메쉬로 연결하는 구조다. 이를 통해 패키지 내 메모리 대역폭을 기존 대비 약 2배인 44TB/s까지 끌어올렸다.</p> <p contents-hash="8f331328990af45a5501d78b2ff22d8fc3339a1f06427e7c267a674a128b23cc" dmcf-pid="3wBL1acnwV" dmcf-ptype="general">실제 연구에서 AMMA 아키텍처는 엔비디아 H100 대비 어텐션 지연 시간이 15.5배 감소했고, 에너지 소비는 6.9배 줄었다. 차세대 루빈 GPU(Rubin GPU) 대비도 1.8~2.5배 빠른 속도와 2.6~3.1배 높은 에너지 효율을 보였다. 특히 100만 토큰(1M Context) 수준의 초장문맥 추론·에이전트 워크로드에서 강력한 성능을 나타냈다.</p> <p contents-hash="9f919f300a7a479de86923e520f32143bea52bdf47278ef7f5537ee11a0debcf" dmcf-pid="0rbotNkLw2" dmcf-ptype="general">연구팀은 “이번 연구를 통해 GPU를 넘어 메모리 중심 아키텍처가 새로운 클래스(class)로 자리 잡을 가능성을 보여주고, 향후 이종(heterogeneous) 플랫폼에서 메모리 중심 가속기가 핵심 역할을 하는 차세대 시스템 연구를 촉진하고 싶다”고 밝혔다.</p> <p contents-hash="411cdbeed6adbe1b976d1bb684008d94302a4aea554e18dfce33f6c3552277e6" dmcf-pid="pmKgFjEoO9" dmcf-ptype="general">이형두 기자 dudu@etnews.com</p> </section> </div> <p class="" data-translation="true">Copyright © 전자신문. 무단전재 및 재배포 금지.</p> 관련자료 이전 LG CNS, 한국전력 차세대 ISP 사업 본격화 05-11 다음 공중 스파이크에 탄성 폭발…세팍타크로 열기 서울 달궜다 05-11 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.