LLM μΆλ‘ GPUμ νμ©λ₯ μ΄ 92%μμ 28%λ‘ λ λ¨μ΄μ§λ μ΄μ κ° μμ΄μ.
H100 64μ₯μΌλ‘ μ€μκ° LLM μλΉμ νλλ μ΄μν μΌμ΄ λ²μ΄μ‘κ±°λ μ. ν둬ννΈλ₯Ό μ½λ ν리ν(prefill) λ¨κ³μμ ν μ μ½μ΄κ° 92%κΉμ§ μΉμλλ°, ν ν°μ νλμ© λ½μλ΄λ λμ½λ(decode) λ¨κ³μμ κ°μ GPUκ° 28~30%λ‘ μͺΌκ·ΈλΌλ€μμ΄μ. 64μ₯ κ°μ λ΄λ©΄μ μ€μ λ‘ 20μ₯ λΆλλ§ μΌνκ³ μμλ μ μ΄μμ.
μ΄μ λ λ λ¨κ³κ° μμ ν λ€λ₯Έ μ°μ°μ΄κΈ° λλ¬Έμ΄μμ. ν리νμ νλ ¬ κ³±μ λ¬Έμ λΌ μ°μ° μ±λ₯μ΄ λ³λͺ©μ΄κ³ , λμ½λλ KV μΊμλ₯Ό λ§€ μ€ν λ§λ€ μ½μ΄μΌ ν΄μ λ©λͺ¨λ¦¬ λμνμ΄ λ³λͺ©μ΄μμ. μ°μ κ°λκ° λ¨κ³ μ¬μ΄μ 5λ°°λ λ¨μ΄μ§λ κ±°μμ.
μ΄ λ¬Έμ λ₯Ό νκΈ° μν΄ "λΆλ¦¬ν μΆλ‘ (disaggregated inference)"μ΄ λμμ΄μ. 2024λ UCμλμμ΄κ³ μ°κ΅¬μ§μ DistServe λ Όλ¬Έμμ μ μλκ³ , μ§κΈμ Perplexityκ° νλ‘λμ μ μ°κ³ μκ³ Meta, LinkedIn, Mistralλ λμ νμ΄μ. NVIDIAλ μμ DynamoλΌλ μ μ© νλ μμν¬λ₯Ό λ§λ€μκ³ , vLLMκ³Ό SGLangλ κΈ°λ³Έ μ§μν΄μ.
GPU ν νμ΄ λ κ°μ§ μΌμ λμμ μν μ μλ€λ κ² μ΄μ μ κ³ μμμ΄ λκ³ μμ΄μ.