๋ก๋ด์ด ํฐ์ ์ธ ๋ฅผ ๊ฐ๊ณ ์ฃผ๋ฐฉ ๋ฌผ๊ฑด์ ๊ตฌ๋ถํ๋ ์๋ฆฌ, VLA ๋ชจ๋ธ์ด ์ค๋ช ํด์ค์.
VLA(Visual-Language-Action) ๋ชจ๋ธ์ ์ด๋ฏธ์งยท์ธ์ดยทํ๋์ ํ๋์ ํธ๋์คํฌ๋จธ ๊ตฌ์กฐ๋ก ํตํฉํ ๋ฉํฐ๋ชจ๋ฌ ๋ก๋ด ์ ์ด ๋ฐฉ์์ด์์. ํต์ฌ์ ํฝ์ ์ด ์๋ '์ ์ฌ ๊ณต๊ฐ(latent space)'์์ ์์ธกํ๋ค๋ ๊ฑฐ์์. ์ ๋ฅด์ฟค์ด ์ฃผ์ฅํ๋ World Model ๊ฐ๋ ์ฒ๋ผ, "์ ๋ฆฌ๋ฅผ ๋จ์ด๋จ๋ฆฌ๋ฉด ๊นจ์ง๋ค"๋ ์์ ์ธ๊ณผ ์ถ๋ก ์ด ์ด ๋ ์ด์ด์์ ์ด๋ค์ ธ์.
ํ์ต ๋ฐฉ์์ ์ธ๊ฐ์ด ์ง์ ์์ฐํ๊ฑฐ๋ ์๊ฒฉ ์กฐ์ข ํ ๋ก๋ด ๊ถค์ ์ ๋ชจ๋ฐฉํ๋ Imitation Learning์์ ์ถ๋ฐํด, Policy Optimization์ผ๋ก ์๋ก์ด ํ๊ฒฝ์๋ ์ผ๋ฐํํ ์ ์๊ฒ ํ์ฅ๋ผ์.
๊ฒฐ๊ตญ ๋ก๋ด ์ง๋ฅ์ ์ด์ ๋ '์ ๋ง๋ ํํ ํ์ต'์ ์๋ค๋ ๊ฒ ์ด ๋ถ์ผ์ ํต์ฌ ๊ฐ์ค์ด์์.