title: "MiniMax, 1090์ต ํ๋ผ๋ฏธํฐ MoE์ ํฌ์ ์ดํ ์ ์ ์ฉ" description: "๋ด์ค - ์๋ฌธ ๊ธฐ๋ฐ ์์ฝ ํ์" date: 2026-06-18 tags: [ai-news] source: "https://www.marktechpost.com/2026/06/17/minimax-sparse-attention-msa-a-two-branch-block-sparse-attention-trained-on-a-109b-parameter-moe-with-a-3t-token-budget/" sidebar: order: 0
์ ๋ชฉ(ํ๊ธ): MiniMax, 1090์ต ํ๋ผ๋ฏธํฐ MoE์ ํฌ์ ์ดํ ์ ์ ์ฉ ์๋ฌธ ์ ๋ชฉ(์๋ฌธ): MiniMax Sparse Attention (MSA): a Two-Branch Block-Sparse Attention Trained on a 109B-Parameter MoE With a 3T-Token Budget ์๋ฌธ: MiniMax Sparse Attention (MSA): a Two-Branch Block-Sparse Attention Trained on a 109B-Parameter MoE With a 3T-Token Budget ์์ค: marktechpost MD ํ์ผ: content/2026-06-18/marktechpost-minimax-sparse-attention-msa-a-two-branch-block-sp.md
ํต์ฌ ๋ด์ฉ
MiniMax๊ฐ ๊ธด ๋ฌธ๋งฅ์ ์ฐ์ฐ ๋ณ๋ชฉ์ ํด๊ฒฐํ๋ ํฌ์ ์ดํ ์ ๊ธฐ๋ฒ MSA(MiniMax Sparse Attention)๋ฅผ ๊ณต๊ฐํ์ด์.
ํต์ฌ์ ์ดํ ์ ์ ๋ ๋จ๊ณ๋ก ๋ถ๋ฆฌํ๋ ๊ฑฐ์์. '์ธ๋ฑ์ค ๋ธ๋์น'๊ฐ ๋จผ์ 128ํ ํฐ ๋จ์ ๋ธ๋ก ์ค ์ฟผ๋ฆฌ์ ๊ด๋ จ๋ 16๊ฐ๋ฅผ ๊ณจ๋ผ๋ด๊ณ , '๋ฉ์ธ ๋ธ๋์น'๊ฐ ๊ทธ 2,048๊ฐ ํ ํฐ์๋ง ์ ํํ ์ํํธ๋งฅ์ค ์ดํ ์ ์ ์ ์ฉํด์. ๋ฌธ๋งฅ์ด ๊ธธ์ด์ ธ๋ ์ฐ์ฐ๋์ด ๊ณ ์ ๋๋ ๊ตฌ์กฐ๊ฑฐ๋ ์.
๊ธฐ์กด Dense GQA๋ ์ ์ฒด ๋ฌธ๋งฅ N์ ๋น๋กํด ์ฐ์ฐ์ด ๋์ด๋์ง๋ง, MSA๋ O(kBk)๋ก ๊ณ ์ ๋ผ์. 1090์ต ํ๋ผ๋ฏธํฐ MoE ๋ชจ๋ธ๊ณผ 3์กฐ ํ ํฐ ํ์ต ๋ฐ์ดํฐ๋ก ๊ฒ์ฆํ๊ณ , ์ค์ ํ๋ก๋์ ๋ชจ๋ธ MiniMax-M3์๋ ์ ์ฉ๋์ด์. ์ถ๋ก ์ปค๋๋ ์คํ์์ค๋ก ๊ณต๊ฐ๋์ด์.
์ก๋์ค์ ํ๋ง๋
1090์ต ํ๋ผ๋ฏธํฐ MoEยท3์กฐ ํ ํฐ์ผ๋ก ๊ฒ์ฆ, ํ๋ก๋์ ๋ชจ๋ธ MiniMax-M3์ ์ค์ ์ ์ฉ๋์ด์. ์ถ๋ก ์ปค๋๊น์ง ์คํ์์ค๋ก ๊ณต๊ฐ๋์ด์.