๋ฏธ์คํธ๋์ด ์คํ์จ์ดํธ ์์ฑํฉ์ฑ ๋ชจ๋ธ Voxtral TTS๋ฅผ ๊ณต๊ฐํ์ด์. 4B ํ๋ผ๋ฏธํฐ ๊ธฐ๋ฐ์ ์คํธ๋ฆฌ๋ฐ TTS๋ก, ์ค์๊ฐ ์์ฑ ์ฑ ์์ฅ์์ ํ์ํ ์์ฑ API์ ์ ๋ฉด ์น๋ถ๋ฅผ ์์ํ ๊ฑฐ์์.
๊ตฌ์กฐ๊ฐ ๊ฝค ์ค์ฉ์ ์ผ๋ก ๋์์ด์. 3.4B Transformer ๋์ฝ๋๊ฐ ์๋ฏธ๋ฅผ ๋ง๋ค๊ณ , 390M Flow-Matching Acoustic Transformer๊ฐ ์ํฅ ํน์ฑ์ผ๋ก ๋ฐ๊พธ๊ณ , 300M ๋ด๋ด ์ค๋์ค ์ฝ๋ฑ์ด ์ต์ข ํํ์ ๋ณต์ํ๊ฑฐ๋ ์.
ํต์ฌ ์ฑ๋ฅ์ ์ง์ฐ์๊ฐ์ด์์. 10์ด ์์ฑ ์ํยท500์ ์ ๋ ฅ ๊ธฐ์ค ๋ชจ๋ธ ๋ ์ดํด์๊ฐ 70ms๋ผ์, ๋ํํ ์์ด์ ํธ๋ ์ค์๊ฐ ๋ฒ์ญ ๊ฐ์ ์ ์ง์ฐ ์ํฌํ๋ก์ ๋ฐ๋ก ๋ฃ๊ธฐ ์ข์ ์์ค์ด์์. ๋ผ์ด์ ์ค๋ CC BY-NC์์.
๊ฒฐ๊ตญ ํ ์คํธยท์ ์ฌ ๋ค์์ผ๋ก โ์ค๋์ค ์ถ๋ ฅ ๋ ์ด์ดโ๊น์ง ์ฑ์ฐ๋ฉด์, ๊ฐ๋ฐ์๊ฐ ๋น์ฉยทํ๋ผ์ด๋ฒ์ ์ ์ฝ์ ๋๊ณ ์์ฑ ์ ํ์ ์ง์ ์ค๊ณํ ์ ํ์ง๊ฐ ๋ ์ปค์ง ๊ฑฐ์์.