λ―Έμ€νΈλμ΄ μ€νμ¨μ΄νΈ μμ±ν©μ± λͺ¨λΈ Voxtral TTSλ₯Ό 곡κ°νμ΄μ. 4B νλΌλ―Έν° κΈ°λ°μ μ€νΈλ¦¬λ° TTSλ‘, μ€μκ° μμ± μ± μμ₯μμ νμν μμ± APIμ μ λ©΄ μΉλΆλ₯Ό μμν κ±°μμ.
κ΅¬μ‘°κ° κ½€ μ€μ©μ μΌλ‘ λμμ΄μ. 3.4B Transformer λμ½λκ° μλ―Έλ₯Ό λ§λ€κ³ , 390M Flow-Matching Acoustic Transformerκ° μν₯ νΉμ±μΌλ‘ λ°κΎΈκ³ , 300M λ΄λ΄ μ€λμ€ μ½λ±μ΄ μ΅μ’ ννμ 볡μνκ±°λ μ.
ν΅μ¬ μ±λ₯μ μ§μ°μκ°μ΄μμ. 10μ΄ μμ± μνΒ·500μ μ λ ₯ κΈ°μ€ λͺ¨λΈ λ μ΄ν΄μκ° 70msλΌμ, λνν μμ΄μ νΈλ μ€μκ° λ²μ κ°μ μ μ§μ° μν¬νλ‘μ λ°λ‘ λ£κΈ° μ’μ μμ€μ΄μμ. λΌμ΄μ μ€λ CC BY-NCμμ.
κ²°κ΅ ν μ€νΈΒ·μ μ¬ λ€μμΌλ‘ βμ€λμ€ μΆλ ₯ λ μ΄μ΄βκΉμ§ μ±μ°λ©΄μ, κ°λ°μκ° λΉμ©Β·νλΌμ΄λ²μ μ μ½μ λκ³ μμ± μ νμ μ§μ μ€κ³ν μ νμ§κ° λ μ»€μ§ κ±°μμ.