GPU 96์ฅ(B200)์ผ๋ก Qwen 3.5 27B๋ฅผ ์ด๋น 100๋ง ํ ํฐ ์ด์ ์๋นํ ๊ฒฐ๊ณผ๊ฐ ๋์์ด์.
vLLM v0.18.0 ๊ธฐ์ค์ผ๋ก, ์ด ์คํ์ ํต์ฌ์ ๋ณ๋ ฌํ ์ ๋ต์ด์๊ฑฐ๋ ์. ๊ฐ์ 8-way ์ค์ ์์๋ DP=8์ด TP=8 ๋๋น ์ฒ๋ฆฌ๋์ ๊ฑฐ์ 4๋ฐฐ๊น์ง ๋์ด์ฌ๋ ธ์ด์.
์ค๊ฐ๊ธ ํฌ๊ธฐ ๋ชจ๋ธ(27B)์์๋ ํ ์ ๋ณ๋ ฌํ์ ํต์ ์ค๋ฒํค๋๊ฐ ๋ฐ๋ชฉ์ ์ก์ ์ ์๋ค๋ ์ ์ด ํ์ธ๋ ์ ์ด์์. ์ฌ๊ธฐ์ TurboQuant 4๋นํธ ์์ํ๋ฅผ ์ฐ๋ฉด ๋ฉ๋ชจ๋ฆฌ๋ฅผ 3.2๋ฐฐ ์ ์ฝํ ์ ์๊ณ , Mistral์ ์คํ์จ์ดํธ Voxtral TTS๋ ํจ๊ป ์ฃผ๋ชฉ๋ฐ๊ณ ์์ด์.
๊ฒฐ๊ตญ ํฌ์ธํธ๋ โGPU ์๋ณด๋ค ์ค์ โ์ด์์. ๋ํ ํด๋ฌ์คํฐ๊ฐ ์์ด๋ vLLM์์ DP/TP ์ ํ๊ณผ ์์ํ ์กฐํฉ์ด ์ฒด๊ฐ ์ฑ๋ฅ์ ํฌ๊ฒ ๋ฐ๊ฟ์ค ์ ์์ด์.