NVIDIA์ ๋ฉ๋ฆด๋๋๋ํ๊ต ์ฐ๊ตฌํ์ด ์คํ์์ค ๋ํ ์ค๋์ค-์ธ์ด ๋ชจ๋ธ 'AF-Next'๋ฅผ ๊ณต๊ฐํ์ด์.
AF-Next๋ ์ธ ๊ฐ์ง ๋ฒ์ ์ผ๋ก ๋๋์ด์. ์ผ๋ฐ ์ง์์๋ต์ฉ AF-Next-Instruct, ๋ค๋จ๊ณ ์ถ๋ก ์ฉ AF-Next-Think, ์ค๋์ค ์บก์ ๋์ฉ AF-Next-Captioner์์. ์์ฑยทํ๊ฒฝ์ยท์์ ์ ๋จ์ผ ๋ชจ๋ธ์์ ๋์์ ์ฒ๋ฆฌํ ์ ์๊ฑฐ๋ ์.
๊ตฌ์กฐ๋ ์ปค์คํ Whisper ๊ธฐ๋ฐ ์ธ์ฝ๋ + 2๋ ์ด์ด MLP ์ด๋ํฐ + Qwen-2.5-7B ์ธ์ด ๋ชจ๋ธ๋ก ์ด๋ค์ ธ ์์ด์. ํนํ ์ปจํ ์คํธ ๊ธธ์ด๋ฅผ 32k์์ 128k ํ ํฐ์ผ๋ก ๋๋ ค ๊ธด ์ค๋์ค๋ ๋๊น ์์ด ์ฒ๋ฆฌํ ์ ์์ด์.
๋น์ -์ธ์ด ๋ชจ๋ธ์ด GPT-4V ๊ฐ์ ๊ฐ๋ ฅํ ์คํ์์ค๋ฅผ ์ป์๋ฏ, ์ค๋์ค ์ดํด๋ ๋๋์ด ๋ณธ๊ฒฉ์ ์ธ ์คํ ๊ฒฝ์์ด ์์๋ ๊ฑฐ์์.