์ ๋ชฉ(ํ๊ธ): Together AI, OSCAR๋ก KV ์บ์ INT2 ๊ณต๊ฐ ์๋ฌธ ์ ๋ชฉ(์๋ฌธ): Together AI Open-Sources OSCAR: An Attention-Aware 2-Bit KV Cache Quantization System for Long-Context LLM Serving ์๋ฌธ: Together AI Open-Sources OSCAR: An Attention-Aware 2-Bit KV Cache Quantization System for Long-Context LLM Serving ์์ค: marktechpost MD ํ์ผ: content/2026-05-26/marktechpost-together-ai-open-sources-oscar-an-attention-aware-.md
ํต์ฌ ๋ด์ฉ
Together AI๊ฐ ์ฅ๋ฌธ๋งฅ LLM ์๋น์ฉ 2๋นํธ KV ์บ์ ์์ํ ์์คํ OSCAR๋ฅผ ์คํ์์ค๋ก ๊ณต๊ฐํ์ด์.
๋ฌธ์ ๋ ์ปจํ ์คํธ๊ฐ 10๋ง ํ ํฐ๊น์ง ๊ธธ์ด์ง๊ณ ๋์ ์์ฒญ์ด ์์ญ ๊ฐ๋ก ๋๋ฉด, KV ์บ์๊ฐ GPU ๋ฉ๋ชจ๋ฆฌ์ ํฐ ๋น์ค์ ์ฐจ์งํ๋ค๋ ์ ์ด์๊ฑฐ๋ ์. ๊ธฐ์กด INT2๋ ์ ํ๋ ํ๋ฝ์ด ํฌ๊ฑฐ๋ paged KV-cache์ ํธํ์ด ์ด๋ ค์ ์ด์.
OSCAR๋ KV ๋ถํฌ ์์ฒด๊ฐ ์๋๋ผ ์ดํ ์ ํต๊ณ, ํนํ ์ฟผ๋ฆฌ ๊ณต๋ถ์ฐ QโคQ๋ฅผ ๊ธฐ์ค์ผ๋ก ํ์ (Offline Spectral Covariance-Aware Rotation)ํด์. INT2์ฒ๋ผ ํํ ๋ ๋ฒจ์ด 4๊ฐ๋ฟ์ธ ํ๊ฒฝ์์ ์ค์ฐจ๋ฅผ ์ค์ํ ๋ฐฉํฅ์์ ๋น์ผ๊ฐ๊ฒ ์ค๊ณํ ๊ฒ ํต์ฌ์ด์์.
๊ฒฐ๊ตญ ๊ธด ๋ฌธ๋งฅ ์ถ๋ก ์ ๋ณ๋ชฉ์ด๋ ๋ฉ๋ชจ๋ฆฌ ๋น์ฉ์ ์ค์ด๋ฉด์ ๋ฐฐ์น ํ์ฅ ๊ฐ๋ฅ์ฑ์ ์ฐ ์ ๊ทผ์ด๋ผ, ์ค์๋น์ค LLM ํจ์จ ๊ฒฝ์์ ๊ธฐ์ค์ ๋ฐ๊ฟ ์ ์์ด์.
์ก๋์ค์ ํ๋ง๋
OSCAR๋ ์ฟผ๋ฆฌ ๊ณต๋ถ์ฐ(QโคQ) ๊ธฐ๋ฐ ํ์ ์ผ๋ก INT2์ 4๋ ๋ฒจ ํ๊ณ๋ฅผ ๋ณด์ํด์. ๊ธด ๋ฌธ๋งฅ ์๋น์์ ๋ฉ๋ชจ๋ฆฌ ํจ์จ๊ณผ ๋ฐฐ์น ํ์ฅ์ฑ์ ๋์์ ๋ ธ๋ฆฌ๋ ์ ๊ทผ์ด์์.