2026-04-09

VLA(Visual-Language-Action) ๋ชจ๋ธ์€ ์ด๋ฏธ์ง€ยท์–ธ์–ดยทํ–‰๋™์„ ํ•˜๋‚˜์˜ ํŠธ๋žœ์Šคํฌ๋จธ ๊ตฌ์กฐ๋กœ ํ†ตํ•ฉํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋กœ๋ด‡ ์ œ์–ด ๋ฐฉ์‹์ด์—์š”

๐Ÿ’ก ํ•œ์ค„ ์š”์•ฝ|VLA(Visual-Language-Action) ๋ชจ๋ธ์€ ์ด๋ฏธ์ง€ยท์–ธ์–ดยทํ–‰๋™์„ ํ•˜๋‚˜์˜ ํŠธ๋žœ์Šคํฌ๋จธ ๊ตฌ์กฐ๋กœ ํ†ตํ•ฉํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋กœ๋ด‡ ์ œ์–ด ๋ฐฉ์‹์ด์—์š”.

๋กœ๋ด‡์ด ํ‹ฐ์…”์ธ ๋ฅผ ๊ฐœ๊ณ  ์ฃผ๋ฐฉ ๋ฌผ๊ฑด์„ ๊ตฌ๋ถ„ํ•˜๋Š” ์›๋ฆฌ, VLA ๋ชจ๋ธ์ด ์„ค๋ช…ํ•ด์ค˜์š”.

VLA(Visual-Language-Action) ๋ชจ๋ธ์€ ์ด๋ฏธ์ง€ยท์–ธ์–ดยทํ–‰๋™์„ ํ•˜๋‚˜์˜ ํŠธ๋žœ์Šคํฌ๋จธ ๊ตฌ์กฐ๋กœ ํ†ตํ•ฉํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋กœ๋ด‡ ์ œ์–ด ๋ฐฉ์‹์ด์—์š”. ํ•ต์‹ฌ์€ ํ”ฝ์…€์ด ์•„๋‹Œ '์ž ์žฌ ๊ณต๊ฐ„(latent space)'์—์„œ ์˜ˆ์ธกํ•œ๋‹ค๋Š” ๊ฑฐ์˜ˆ์š”. ์–€ ๋ฅด์ฟค์ด ์ฃผ์žฅํ•˜๋Š” World Model ๊ฐœ๋…์ฒ˜๋Ÿผ, "์œ ๋ฆฌ๋ฅผ ๋–จ์–ด๋œจ๋ฆฌ๋ฉด ๊นจ์ง„๋‹ค"๋Š” ์‹์˜ ์ธ๊ณผ ์ถ”๋ก ์ด ์ด ๋ ˆ์ด์–ด์—์„œ ์ด๋ค„์ ธ์š”.

ํ•™์Šต ๋ฐฉ์‹์€ ์ธ๊ฐ„์ด ์ง์ ‘ ์‹œ์—ฐํ•˜๊ฑฐ๋‚˜ ์›๊ฒฉ ์กฐ์ข…ํ•œ ๋กœ๋ด‡ ๊ถค์ ์„ ๋ชจ๋ฐฉํ•˜๋Š” Imitation Learning์—์„œ ์ถœ๋ฐœํ•ด, Policy Optimization์œผ๋กœ ์ƒˆ๋กœ์šด ํ™˜๊ฒฝ์—๋„ ์ผ๋ฐ˜ํ™”ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ™•์žฅ๋ผ์š”.

๊ฒฐ๊ตญ ๋กœ๋ด‡ ์ง€๋Šฅ์˜ ์—ด์‡ ๋Š” '์ž˜ ๋งŒ๋“  ํ‘œํ˜„ ํ•™์Šต'์— ์žˆ๋‹ค๋Š” ๊ฒŒ ์ด ๋ถ„์•ผ์˜ ํ•ต์‹ฌ ๊ฐ€์„ค์ด์—์š”.

์ด ๊ธ€์ด ์–ด๋• ๋‚˜์š”?

๊ด€๋ จ ๊ธ€

ํ•ต์‹ฌ์€ '๋ฐ˜๋ณต ์ž‘์—… ์ž๋™ํ™”'์˜ˆ์š”

ํ•ต์‹ฌ์€ '๋ฐ˜๋ณต ์ž‘์—… ์ž๋™ํ™”'์˜ˆ์š”.

์žก๋Œ์Œค2๋ถ„ ์†Œ์š”

๋ฌธ์ œ๋Š” ๊ทœ์น™ ์ž์ฒด๊ฐ€ ์—†๋‹ค๋Š” ๊ฑฐ์˜ˆ์š”

๋ฌธ์ œ๋Š” ๊ทœ์น™ ์ž์ฒด๊ฐ€ ์—†๋‹ค๋Š” ๊ฑฐ์˜ˆ์š”.

์žก๋Œ์Œค2๋ถ„ ์†Œ์š”

/fusion ๋ช…๋ น์–ด๋ฅผ ์‹คํ–‰ํ•˜๋ฉด ์ตœ๋Œ€ 5๊ฐœ์˜ ํ”Œ๋ž˜๋„ˆ ๋ชจ๋ธ์ด ๋ณ‘๋ ฌ๋กœ ๊ณ„ํš์„ ์„ธ์šฐ๊ณ , ๋ฉ”์ธ ๋ชจ๋ธ์ด ์‹ค์ œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•œ ๋’ค, ์ตœ๋Œ€ 5๊ฐœ์˜ ๋ฆฌ๋ทฐ์–ด ๋ชจ๋ธ์ด ๊ฒฐ๊ณผ๋ฌผ์„ ๊ฒ€ํ† ํ•˜๋Š” ๊ตฌ์กฐ๊ฑฐ๋“ ์š”

/fusion ๋ช…๋ น์–ด๋ฅผ ์‹คํ–‰ํ•˜๋ฉด ์ตœ๋Œ€ 5๊ฐœ์˜ ํ”Œ๋ž˜๋„ˆ ๋ชจ๋ธ์ด ๋ณ‘๋ ฌ๋กœ ๊ณ„ํš์„ ์„ธ์šฐ๊ณ , ๋ฉ”์ธ ๋ชจ๋ธ์ด ์‹ค์ œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•œ ๋’ค, ์ตœ๋Œ€ 5๊ฐœ์˜ ๋ฆฌ๋ทฐ์–ด ๋ชจ๋ธ์ด ๊ฒฐ๊ณผ๋ฌผ์„ ๊ฒ€ํ† ํ•˜๋Š” ๊ตฌ์กฐ๊ฑฐ๋“ ์š”.

์žก๋Œ์Œค2๋ถ„ ์†Œ์š”