GPU 96μ₯(B200)μΌλ‘ Qwen 3.5 27Bλ₯Ό μ΄λΉ 100λ§ ν ν° μ΄μ μλΉν κ²°κ³Όκ° λμμ΄μ.
vLLM v0.18.0 κΈ°μ€μΌλ‘, μ΄ μ€νμ ν΅μ¬μ λ³λ ¬ν μ λ΅μ΄μκ±°λ μ. κ°μ 8-way μ€μ μμλ DP=8μ΄ TP=8 λλΉ μ²λ¦¬λμ κ±°μ 4λ°°κΉμ§ λμ΄μ¬λ Έμ΄μ.
μ€κ°κΈ ν¬κΈ° λͺ¨λΈ(27B)μμλ ν μ λ³λ ¬νμ ν΅μ μ€λ²ν€λκ° λ°λͺ©μ μ‘μ μ μλ€λ μ μ΄ νμΈλ μ μ΄μμ. μ¬κΈ°μ TurboQuant 4λΉνΈ μμνλ₯Ό μ°λ©΄ λ©λͺ¨λ¦¬λ₯Ό 3.2λ°° μ μ½ν μ μκ³ , Mistralμ μ€νμ¨μ΄νΈ Voxtral TTSλ ν¨κ» μ£Όλͺ©λ°κ³ μμ΄μ.
κ²°κ΅ ν¬μΈνΈλ βGPU μλ³΄λ€ μ€μ βμ΄μμ. λν ν΄λ¬μ€ν°κ° μμ΄λ vLLMμμ DP/TP μ νκ³Ό μμν μ‘°ν©μ΄ μ²΄κ° μ±λ₯μ ν¬κ² λ°κΏμ€ μ μμ΄μ.