2026-03-27

vLLM v0.18.0 κΈ°μ€€μœΌλ‘œ, 이 μ‹€ν—˜μ˜ 핡심은 병렬화 μ „λž΅μ΄μ—ˆκ±°λ“ μš”

πŸ’‘ ν•œμ€„ μš”μ•½|vLLM v0.18.0 κΈ°μ€€μœΌλ‘œ, 이 μ‹€ν—˜μ˜ 핡심은 병렬화 μ „λž΅μ΄μ—ˆκ±°λ“ μš”.

GPU 96μž₯(B200)으둜 Qwen 3.5 27Bλ₯Ό μ΄ˆλ‹Ή 100만 토큰 이상 μ„œλΉ™ν•œ κ²°κ³Όκ°€ λ‚˜μ™”μ–΄μš”.

vLLM v0.18.0 κΈ°μ€€μœΌλ‘œ, 이 μ‹€ν—˜μ˜ 핡심은 병렬화 μ „λž΅μ΄μ—ˆκ±°λ“ μš”. 같은 8-way μ„€μ •μ—μ„œλ„ DP=8이 TP=8 λŒ€λΉ„ μ²˜λ¦¬λŸ‰μ„ 거의 4λ°°κΉŒμ§€ λŒμ–΄μ˜¬λ Έμ–΄μš”.

쀑간급 크기 λͺ¨λΈ(27B)μ—μ„œλŠ” ν…μ„œ λ³‘λ ¬ν™”μ˜ 톡신 μ˜€λ²„ν—€λ“œκ°€ 발λͺ©μ„ μž‘μ„ 수 μžˆλ‹€λŠ” 점이 ν™•μΈλœ μ…ˆμ΄μ—μš”. 여기에 TurboQuant 4λΉ„νŠΈ μ–‘μžν™”λ₯Ό μ“°λ©΄ λ©”λͺ¨λ¦¬λ₯Ό 3.2λ°° μ ˆμ•½ν•  수 있고, Mistral의 μ˜€ν”ˆμ›¨μ΄νŠΈ Voxtral TTS도 ν•¨κ»˜ μ£Όλͺ©λ°›κ³  μžˆμ–΄μš”.

κ²°κ΅­ ν¬μΈνŠΈλŠ” β€œGPU μˆ˜λ³΄λ‹€ μ„€μ •β€μ΄μ—μš”. λŒ€ν˜• ν΄λŸ¬μŠ€ν„°κ°€ 없어도 vLLMμ—μ„œ DP/TP 선택과 μ–‘μžν™” 쑰합이 체감 μ„±λŠ₯을 크게 바꿔쀄 수 μžˆμ–΄μš”.

이 글이 μ–΄λ• λ‚˜μš”?