MIT, NVIDIA, ์ ์ฅ๋ ์ฐ๊ตฌํ์ด KV ์บ์ ์์ถ ๊ธฐ๋ฒ 'TriAttention'์ ๋ฐํํ์ด์.
์ํ ์ถ๋ก ๋ฒค์น๋งํฌ(AIME25, 32K ํ ํฐ ์์ฑ)์์ ๊ธฐ์กด Full Attention๊ณผ ๋์ผํ ์ ํ๋๋ฅผ ์ ์งํ๋ฉด์ ์ฒ๋ฆฌ ์๋๋ 2.5๋ฐฐ, KV ๋ฉ๋ชจ๋ฆฌ๋ 10.7๋ฐฐ ์ค์ด๋ ๋ฐ ์ฑ๊ณตํ๊ฑฐ๋ ์. ๊ธฐ์กด ์ต๊ณ ์์ค ๋ฐฉ๋ฒ๋ค์ ๊ฐ์ ํจ์จ์์ ์ ํ๋๊ฐ ์ ๋ฐ๋ฐ์ ์ ๋์ด์.
ํต์ฌ์ RoPE(ํ์ ์์น ์ธ์ฝ๋ฉ)๊ฐ ๋ง๋๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ๊ฑฐ์์. ๊ธฐ์กด SnapKV, H2O ๊ฐ์ ๋ฐฉ๋ฒ๋ค์ ์์น ์ธ์ฝ๋ฉ์ด ์ ์ฉ๋ ์ดํ ๊ณต๊ฐ์์ ์ค์ ํ ํฐ์ ํ๋จํด์, ์ต๊ทผ ํ ํฐ ๊ธฐ์ค์ผ๋ก๋ง ์ ๋๋ก ์๋ํ๋ ํ๊ณ๊ฐ ์์์ด์.
DeepSeek-R1์ฒ๋ผ ์๋ง ํ ํฐ์ ์์ฑํ๋ ์ถ๋ก ๋ชจ๋ธ์ด ๋์ด๋๋ ์ํฉ์์, GPU ๋ฉ๋ชจ๋ฆฌ ํ๊ณ๋ฅผ ๋ํํ๋ ์ค์ฉ์ ์ธ ํด๋ฒ์ด ๋์จ ์ ์ด์์.