📰 NVIDIA, AR·확산·자기추측 3모드 언어모델 공개

제목(한글): NVIDIA, AR·확산·자기추측 3모드 언어모델 공개 원문 제목(영문): NVIDIA AI Releases Nemotron-Labs-Diffusion: A Tri-Mode Language Model with 6× Tokens Per Forward Over Qwen3-8B 원문: NVIDIA AI Releases Nemotron-Labs-Diffusion: A Tri-Mode Language Model with 6× Tokens Per Forward Over Qwen3-8B 소스: marktechpost MD 파일: content/2026-05-21/marktechpost-nvidia-ai-releases-nemotron-labs-diffusion-a-tri-m.md

핵심 내용

NVIDIA가 하나의 가중치로 세 가지 추론 방식을 지원하는 언어모델 패밀리 Nemotron-Labs-Diffusion을 공개했어요.

기존 자동회귀(AR) 방식은 토큰을 한 번에 하나씩 생성해 GPU 병렬성 활용이 낮았는데요. 이 모델은 AR·확산(Diffusion)·자기추측(Self-Speculation) 세 가지 모드를 상황에 따라 선택해서 써요. 확산 모드에서는 한 번의 순전파(forward pass)로 Qwen3-8B 대비 최대 6배 많은 토큰을 처리할 수 있어요.

3B·8B·14B 세 가지 파라미터 크기로 제공되고, 기본·인스트럭트·비전-언어 변형까지 포함돼 있어요. 추론 속도와 정확도를 동시에 잡으려는 시도가 실제 배포 환경에서 어떤 결과를 낼지 주목돼요.

잡돌쌤의 한마디

확산 모드에서 순전파 1회당 Qwen3-8B보다 최대 6배 많은 토큰을 처리해요. 엣지·단일 사용자 환경에서 GPU 활용률을 크게 높일 수 있어요.

출처: NVIDIA AI Releases Nemotron-Labs-Diffusion: A Tri-Mode Language Model with 6× Tokens Per Forward Over Qwen3-8B

뉴스 - 원문 기반 요약 필요

핵심 내용

잡돌쌤의 한마디

관련 글

핵심은 '반복 작업 자동화'예요

문제는 규칙 자체가 없다는 거예요

/fusion 명령어를 실행하면 최대 5개의 플래너 모델이 병렬로 계획을 세우고, 메인 모델이 실제 작업을 수행한 뒤, 최대 5개의 리뷰어 모델이 결과물을 검토하는 구조거든요