2026-05-23

핡심은 토큰을 1κ°œμ”© ν™•μ •ν•˜λŠ” μžκΈ°νšŒκ·€(AR) 방식 ν•œκ³„λ₯Ό μ€„μ˜€λ‹€λŠ” μ μ΄μ—μš”

πŸ’‘ ν•œμ€„ μš”μ•½|핡심은 토큰을 1κ°œμ”© ν™•μ •ν•˜λŠ” μžκΈ°νšŒκ·€(AR) 방식 ν•œκ³„λ₯Ό μ€„μ˜€λ‹€λŠ” μ μ΄μ—μš”.

NVIDIA Nemotron-Labsκ°€ ν™•μ‚°ν˜• μ–Έμ–΄λͺ¨λΈλ‘œ ν…μŠ€νŠΈ 생성 속도λ₯Ό 사싀상 μƒˆλ‘œμš΄ κ΅¬κ°„μœΌλ‘œ λŒμ–΄μ˜¬λ¦¬λŠ” κ²°κ³Όλ₯Ό κ³΅κ°œν–ˆμ–΄μš”.

핡심은 토큰을 1κ°œμ”© ν™•μ •ν•˜λŠ” μžκΈ°νšŒκ·€(AR) 방식 ν•œκ³„λ₯Ό μ€„μ˜€λ‹€λŠ” μ μ΄μ—μš”. κΈ°μ‘΄ AR은 ν† ν°λ§ˆλ‹€ 전체 λͺ¨λΈ νŒ¨μŠ€κ°€ ν•„μš”ν•΄μ„œ 지연이 μ»€μ§€λŠ”λ°, 이번 접근은 ν•œ λ²ˆμ— 더 λ³‘λ ¬μ μœΌλ‘œ μƒμ„±Β·μ •μ œν•˜λŠ” ꡬ쑰λ₯Ό μ œμ‹œν–ˆκ±°λ“ μš”.

이번 κΈ€μ—μ„œλŠ” λͺ¨λΈ, ν•™μŠ΅ λ ˆμ‹œν”Ό, ν…Œν¬λ‹ˆμ»¬ λ¦¬ν¬νŠΈμ™€ ν•¨κ»˜ 단일 λͺ¨λΈμ—μ„œ 3κ°€μ§€ 생성 λͺ¨λ“œλ₯Ό μ§€μ›ν•œλ‹€κ³  λ°ν˜”κ³ , SGLang 배포·좔둠 κ²½λ‘œκΉŒμ§€ 같이 κ³΅κ°œν–ˆμ–΄μš”.

μ˜λ―ΈλŠ” λΆ„λͺ…ν•΄μš”. μ§€μ—°μ‹œκ°„μ΄ μ€‘μš”ν•œ μ½”λ”©Β·μ—μ΄μ „νŠΈ μ œν’ˆμ—μ„œ, 같은 GPU둜 체감 속도와 처리 νš¨μœ¨μ„ λ™μ‹œμ— 높일 수 μžˆλŠ” 선택지가 컀지고 μžˆμ–΄μš”.

이 글이 μ–΄λ• λ‚˜μš”?