2026-04-15

H100 64μž₯으둜 μ‹€μ‹œκ°„ LLM μ„œλΉ™μ„ ν–ˆλ”λ‹ˆ μ΄μƒν•œ 일이 λ²Œμ–΄μ‘Œκ±°λ“ μš”

πŸ’‘ ν•œμ€„ μš”μ•½|H100 64μž₯으둜 μ‹€μ‹œκ°„ LLM μ„œλΉ™μ„ ν–ˆλ”λ‹ˆ μ΄μƒν•œ 일이 λ²Œμ–΄μ‘Œκ±°λ“ μš”.

LLM μΆ”λ‘  GPU의 ν™œμš©λ₯ μ΄ 92%μ—μ„œ 28%둜 뚝 λ–¨μ–΄μ§€λŠ” μ΄μœ κ°€ μžˆμ–΄μš”.

H100 64μž₯으둜 μ‹€μ‹œκ°„ LLM μ„œλΉ™μ„ ν–ˆλ”λ‹ˆ μ΄μƒν•œ 일이 λ²Œμ–΄μ‘Œκ±°λ“ μš”. ν”„λ‘¬ν”„νŠΈλ₯Ό μ½λŠ” 프리필(prefill) 단계에선 ν…μ„œ μ½”μ–΄κ°€ 92%κΉŒμ§€ μΉ˜μ†ŸλŠ”λ°, 토큰을 ν•˜λ‚˜μ”© λ½‘μ•„λ‚΄λŠ” λ””μ½”λ“œ(decode) 단계에선 같은 GPUκ°€ 28~30%둜 μͺΌκ·ΈλΌλ“€μ—ˆμ–΄μš”. 64μž₯ 값을 λ‚΄λ©΄μ„œ μ‹€μ œλ‘  20μž₯ λΆ„λŸ‰λ§Œ μΌν•˜κ³  μžˆμ—ˆλ˜ μ…ˆμ΄μ—μš”.

μ΄μœ λŠ” 두 단계가 μ™„μ „νžˆ λ‹€λ₯Έ 연산이기 λ•Œλ¬Έμ΄μ—μš”. 프리필은 ν–‰λ ¬ κ³±μ…ˆ 문제라 μ—°μ‚° μ„±λŠ₯이 병λͺ©μ΄κ³ , λ””μ½”λ“œλŠ” KV μΊμ‹œλ₯Ό λ§€ μŠ€ν…λ§ˆλ‹€ 읽어야 ν•΄μ„œ λ©”λͺ¨λ¦¬ λŒ€μ—­ν­μ΄ 병λͺ©μ΄μ—μš”. μ‚°μˆ  강도가 단계 사이에 5λ°°λ‚˜ λ–¨μ–΄μ§€λŠ” κ±°μ˜ˆμš”.

이 문제λ₯Ό ν’€κΈ° μœ„ν•΄ "λΆ„λ¦¬ν˜• μΆ”λ‘ (disaggregated inference)"이 λ‚˜μ™”μ–΄μš”. 2024λ…„ UCμƒŒλ””μ—μ΄κ³  μ—°κ΅¬μ§„μ˜ DistServe λ…Όλ¬Έμ—μ„œ μ œμ•ˆλκ³ , μ§€κΈˆμ€ Perplexityκ°€ ν”„λ‘œλ•μ…˜μ— μ“°κ³  있고 Meta, LinkedIn, Mistral도 λ„μž…ν–ˆμ–΄μš”. NVIDIAλŠ” μ•„μ˜ˆ DynamoλΌλŠ” μ „μš© ν”„λ ˆμž„μ›Œν¬λ₯Ό λ§Œλ“€μ—ˆκ³ , vLLMκ³Ό SGLang도 κΈ°λ³Έ μ§€μ›ν•΄μš”.

GPU ν•œ 풀이 두 κ°€μ§€ 일을 λ™μ‹œμ— μž˜ν•  수 μ—†λ‹€λŠ” 게 이제 업계 상식이 되고 μžˆμ–΄μš”.

이 글이 μ–΄λ• λ‚˜μš”?

κ΄€λ ¨ κΈ€

AI μ—μ΄μ „νŠΈκ°€ μΆ”λ‘  μ‹œμ μ— μ‹€μ‹œκ°„ 데이터λ₯Ό 직접 λŒμ–΄μ˜¬ 수 있게 된 κ±°μ˜ˆμš”

AI μ—μ΄μ „νŠΈκ°€ μΆ”λ‘  μ‹œμ μ— μ‹€μ‹œκ°„ 데이터λ₯Ό 직접 λŒμ–΄μ˜¬ 수 있게 된 κ±°μ˜ˆμš”.

작돌쌀2λΆ„ μ†Œμš”

λ°”μ΄λΈŒ 코딩은 직관과 즉ν₯적 μš”κ΅¬μ‚¬ν•­μœΌλ‘œ λΉ λ₯΄κ²Œ κ΅¬ν˜„ν•˜λŠ” 방식이고, μŠ€νŽ™ 코딩은 μ½”λ“œ ν•œ 쀄 μ“°κΈ° 전에 λ¬Έμ„œν™”μ™€ 섀계λ₯Ό λ¨Όμ € λλ‚΄λŠ” λ°©μ‹μ΄μ—μš”

λ°”μ΄λΈŒ 코딩은 직관과 즉ν₯적 μš”κ΅¬μ‚¬ν•­μœΌλ‘œ λΉ λ₯΄κ²Œ κ΅¬ν˜„ν•˜λŠ” 방식이고, μŠ€νŽ™ 코딩은 μ½”λ“œ ν•œ 쀄 μ“°κΈ° 전에 λ¬Έμ„œν™”μ™€ 섀계λ₯Ό λ¨Όμ € λλ‚΄λŠ” λ°©μ‹μ΄μ—μš”.

작돌쌀2λΆ„ μ†Œμš”

루카 κ³Όλ‹€λ‹ˆλ…Έ 감독이 메가폰을 작고 μ•€λ“œλ£¨ κ°€ν•„λ“œκ°€ μƒ˜ μ•ŒνŠΈλ§Œ 역을 맑은 μž‘ν’ˆμΈλ°μš”

루카 κ³Όλ‹€λ‹ˆλ…Έ 감독이 메가폰을 작고 μ•€λ“œλ£¨ κ°€ν•„λ“œκ°€ μƒ˜ μ•ŒνŠΈλ§Œ 역을 맑은 μž‘ν’ˆμΈλ°μš”.

작돌쌀2λΆ„ μ†Œμš”