📰 NVIDIA Releases Nemotron 3 Super: A 120B Parameter Open-Source Hybrid Mamba-Attention MoE Model Delivering 5x Higher Throughput for Agentic AI

엔비디아가 1200억 파라미터 오픈소스 추론 모델 Nemotron 3 Super를 공개했고, 에이전트형 AI 처리량을 최대 7배까지 끌어올렸어요.

이 모델은 Nemotron 3 Nano(300억)와 2026년 출시 예정 Ultra(5000억) 사이 라인업을 채우는 중간급인데요. 이전 세대 대비 정확도는 2배, 컨텍스트 윈도는 100만 토큰으로 7배 커졌어요.

핵심은 하이브리드 Mamba-Transformer MoE 구조예요. 토큰마다 일부 파라미터만 활성화해 KV·SSM 캐시 효율을 4배 높였고, MTP로 복잡 추론 추론 속도도 3배 빨라졌거든요. Latent MoE로는 같은 연산비용에서 전문가 4개를 돌려, 같은 정확도를 내려면 모델이 35배 더 커져야 하는 비효율을 줄였어요.

폐쇄형 최상위 모델과 오픈소스 모델의 격차가 숫자로 줄어드는 흐름이라, 멀티 에이전트 제품화 속도가 더 빨라질 가능성이 커 보여요.

NVIDIA Releases Nemotron 3 Super: A 120B Parameter Open-Source Hybrid Mamba-Attention MoE Model Delivering 5x Higher Throughput for Agentic AI

관련 글

뉴스 - 원문 기반 요약 필요

뉴스 - 원문 기반 요약 필요

뉴스 - 원문 기반 요약 필요