title: "Together AI, OSCAR๋ก KV ์บ์ INT2 ๊ณต๊ฐ" description: "๋ด์ค - ์๋ฌธ ๊ธฐ๋ฐ ์์ฝ ํ์" date: 2026-05-26 tags: [ai-news] source: "https://www.marktechpost.com/2026/05/25/together-ai-open-sources-oscar-an-attention-aware-2-bit-kv-cache-quantization-system-for-long-context-llm-serving/" sidebar: order: 0
์ ๋ชฉ(ํ๊ธ): Together AI, OSCAR๋ก KV ์บ์ INT2 ๊ณต๊ฐ ์๋ฌธ ์ ๋ชฉ(์๋ฌธ): Together AI Open-Sources OSCAR: An Attention-Aware 2-Bit KV Cache Quantization System for Long-Context LLM Serving ์๋ฌธ: Together AI Open-Sources OSCAR: An Attention-Aware 2-Bit KV Cache Quantization System for Long-Context LLM Serving ์์ค: marktechpost MD ํ์ผ: content/2026-05-26/marktechpost-together-ai-open-sources-oscar-an-attention-aware-.md
ํต์ฌ ๋ด์ฉ
Together AI๊ฐ ์ฅ๋ฌธ๋งฅ LLM ์๋น์ฉ 2๋นํธ KV ์บ์ ์์ํ ์์คํ OSCAR๋ฅผ ์คํ์์ค๋ก ๊ณต๊ฐํ์ด์.
๋ฌธ์ ๋ 100K ํ ํฐ๊ธ ๊ธด ์ปจํ ์คํธ์ ๋์ ๋ค์ค ์์ฒญ์์ KV ์บ์๊ฐ GPU ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํฌ๊ฒ ์ก์๋จน๋๋ค๋ ์ ์ด์์ด์. ๊ธฐ์กด INT2 ๋ฐฉ์์ ์ ํ๋๊ฐ ๋ฌด๋์ง๊ฑฐ๋ paged KV-cache์ ์ ๋ง๋ ๊ตฌ์กฐ๊ฐ ๋ง์๊ฑฐ๋ ์.
OSCAR๋ ํ์ฑ๊ฐ ๋ถํฌ๊ฐ ์๋๋ผ ์ดํ ์ ํต๊ณ ๊ธฐ๋ฐ์ผ๋ก ํ์ ํ๋ ฌ์ ์ก์์. ํนํ ํค๋ QโคQ(์ฟผ๋ฆฌ ๊ณต๋ถ์ฐ) ๊ธฐ์ค์ผ๋ก, ๊ฐ์ ์ถ๋ ฅ ์ค์ฐจ ๊ด์ ์ผ๋ก ์ค์ ๋ฐฉํฅ์ ๋ฐ์ํด 4๋ ๋ฒจ๋ฟ์ธ INT2 ์ค์ฐจ๋ฅผ ๋ ์น๋ช ์ ์ธ ์ถ์ผ๋ก ๋ณด๋ด๋ ์ ๊ทผ์ด์์.
๊ฐ์ 2๋นํธ๋ผ๋ ์ด๋์ ์ค์ฐจ๋ฅผ ๋จ๊ธฐ๋๋๊ฐ ์ค์ฌ์ฉ ์ฑ๋ฅ์ ๊ฐ๋ฅธ๋ค๋ ๊ฑธ ๋ณด์ฌ์ค ์ฌ๋ก๋ผ, ์ฅ๋ฌธ๋งฅ ์๋น ๋น์ฉ ๊ตฌ์กฐ๋ฅผ ๋ฐ๊ฟ ๊ฐ๋ฅ์ฑ์ด ์์ด์.
์ก๋์ค์ ํ๋ง๋
OSCAR๋ INT2์ 4๋ ๋ฒจ ํ๊ณ๋ฅผ ์ดํ ์ ํต๊ณ ๊ธฐ๋ฐ ํ์ ์ผ๋ก ๋ณด์ํด์. ๊ฐ์ ์์ถ๋ฅ ์์๋ ์ ํ๋์ ์๋น ํธํ์ฑ์ ํจ๊ป ๋ ธ๋ฆฌ๋ ์ ๊ทผ์ด์์.