2026-04-01

이 μ—°κ΅¬λŠ” DreamerV2에 β€˜μ—­λ™μ—­ν•™(inverse dynamics)’ λͺ©ν‘œλ₯Ό μΆ”κ°€ν•΄, 미래 이미지뿐 μ•„λ‹ˆλΌ μƒνƒœ 전이λ₯Ό λ§Œλ“  ν–‰λ™κΉŒμ§€ ν•¨κ»˜ ν•™μŠ΅ν•˜κ²Œ λ§Œλ“  게 ν•΅μ‹¬μ΄μ—μš”

πŸ’‘ ν•œμ€„ μš”μ•½|이 μ—°κ΅¬λŠ” DreamerV2에 β€˜μ—­λ™μ—­ν•™(inverse dynamics)’ λͺ©ν‘œλ₯Ό μΆ”κ°€ν•΄, 미래 이미지뿐 μ•„λ‹ˆλΌ μƒνƒœ 전이λ₯Ό λ§Œλ“  ν–‰λ™κΉŒμ§€ ν•¨κ»˜ ν•™μŠ΅ν•˜κ²Œ λ§Œλ“  게 ν•΅μ‹¬μ΄μ—μš”.

λ‘œλ΄‡ μ •μ±… ν•™μŠ΅ μ„±λŠ₯을 크게 λŒμ–΄μ˜¬λ¦° World-Action Model(WAM)이 λ‚˜μ™”μ–΄μš”.

이 μ—°κ΅¬λŠ” DreamerV2에 β€˜μ—­λ™μ—­ν•™(inverse dynamics)’ λͺ©ν‘œλ₯Ό μΆ”κ°€ν•΄, 미래 이미지뿐 μ•„λ‹ˆλΌ μƒνƒœ 전이λ₯Ό λ§Œλ“  ν–‰λ™κΉŒμ§€ ν•¨κ»˜ ν•™μŠ΅ν•˜κ²Œ λ§Œλ“  게 ν•΅μ‹¬μ΄μ—μš”. 즉, μ œμ–΄μ— μ€‘μš”ν•œ 행동 정보가 μž μž¬ν‘œν˜„μ— 더 잘 λ‹΄κΈ°κ²Œ ν•œ κ±°μ˜ˆμš”.

CALVIN μ‘°μž‘ 과제 8κ°œμ—μ„œ, μ •μ±… κ΅¬μ‘°λ‚˜ ν•™μŠ΅ 절차λ₯Ό λ°”κΎΈμ§€ μ•Šκ³ λ„ μ„±λŠ₯이 λ›°μ—ˆμ–΄μš”. ν–‰λ™λ³΅μ œ(BC) 평균 성곡λ₯ μ€ 59.4%μ—μ„œ 71.2%둜 올랐고, PPO λ―Έμ„Έμ‘°μ • ν›„μ—” 79.8% λŒ€λΉ„ 92.8%λ₯Ό κΈ°λ‘ν–ˆμ–΄μš”. 2개 κ³Όμ œλŠ” 100% 성곡에 λ„λ‹¬ν–ˆκ³ , ν•™μŠ΅ μŠ€ν…μ€ 8.7λ°° 적게 μΌκ±°λ“ μš”.

κ²°κ΅­ β€œλ” 적게 ν•™μŠ΅ν•˜κ³  더 잘 μ œμ–΄ν•˜λŠ”β€ μ›”λ“œλͺ¨λΈ 섀계가 μ‹€μ œ λ‘œλ΄‡ ν•™μŠ΅ 효율의 κ²Œμž„μ²΄μΈμ €κ°€ 될 κ°€λŠ₯성을 보여쀀 κ²°κ³Όμ—μš”.

이 글이 μ–΄λ• λ‚˜μš”?