📰 Together AI, OSCAR로 KV 캐시 INT2 공개

title: "Together AI, OSCAR로 KV 캐시 INT2 공개" description: "뉴스 - 원문 기반 요약 필요" date: 2026-05-26 tags: [ai-news] source: "https://www.marktechpost.com/2026/05/25/together-ai-open-sources-oscar-an-attention-aware-2-bit-kv-cache-quantization-system-for-long-context-llm-serving/" sidebar: order: 0

제목(한글): Together AI, OSCAR로 KV 캐시 INT2 공개 원문 제목(영문): Together AI Open-Sources OSCAR: An Attention-Aware 2-Bit KV Cache Quantization System for Long-Context LLM Serving 원문: Together AI Open-Sources OSCAR: An Attention-Aware 2-Bit KV Cache Quantization System for Long-Context LLM Serving 소스: marktechpost MD 파일: content/2026-05-26/marktechpost-together-ai-open-sources-oscar-an-attention-aware-.md

Together AI가 장문맥 LLM 서빙용 2비트 KV 캐시 양자화 시스템 OSCAR를 오픈소스로 공개했어요.

문제는 100K 토큰급 긴 컨텍스트와 동시 다중 요청에서 KV 캐시가 GPU 메모리를 크게 잡아먹는다는 점이었어요. 기존 INT2 방식은 정확도가 무너지거나 paged KV-cache와 안 맞는 구조가 많았거든요.

OSCAR는 활성값 분포가 아니라 어텐션 통계 기반으로 회전 행렬을 잡아요. 특히 키는 Q⊤Q(쿼리 공분산) 기준으로, 값은 출력 오차 관점으로 중요 방향을 반영해 4레벨뿐인 INT2 오차를 덜 치명적인 축으로 보내는 접근이에요.

같은 2비트라도 어디에 오차를 남기느냐가 실사용 성능을 가른다는 걸 보여준 사례라, 장문맥 서빙 비용 구조를 바꿀 가능성이 있어요.

OSCAR는 INT2의 4레벨 한계를 어텐션 통계 기반 회전으로 보완해요. 같은 압축률에서도 정확도와 서빙 호환성을 함께 노리는 접근이에요.