|잡돌쌤•2026-04-01•2분 소요

이 연구는 DreamerV2에 ‘역동역학(inverse dynamics)’ 목표를 추가해, 미래 이미지뿐 아니라 상태 전이를 만든 행동까지 함께 학습하게 만든 게 핵심이에요

💡 한줄 요약|이 연구는 DreamerV2에 ‘역동역학(inverse dynamics)’ 목표를 추가해, 미래 이미지뿐 아니라 상태 전이를 만든 행동까지 함께 학습하게 만든 게 핵심이에요.

로봇 정책 학습 성능을 크게 끌어올린 World-Action Model(WAM)이 나왔어요.

이 연구는 DreamerV2에 ‘역동역학(inverse dynamics)’ 목표를 추가해, 미래 이미지뿐 아니라 상태 전이를 만든 행동까지 함께 학습하게 만든 게 핵심이에요. 즉, 제어에 중요한 행동 정보가 잠재표현에 더 잘 담기게 한 거예요.

CALVIN 조작 과제 8개에서, 정책 구조나 학습 절차를 바꾸지 않고도 성능이 뛰었어요. 행동복제(BC) 평균 성공률은 59.4%에서 71.2%로 올랐고, PPO 미세조정 후엔 79.8% 대비 92.8%를 기록했어요. 2개 과제는 100% 성공에 도달했고, 학습 스텝은 8.7배 적게 썼거든요.

결국 “더 적게 학습하고 더 잘 제어하는” 월드모델 설계가 실제 로봇 학습 효율의 게임체인저가 될 가능성을 보여준 결과에요.

이 글이 어땠나요?

기존엔 에이전트 루프와 VS Code 확장이 강하게 묶여 있어서 유지보수와 환경 확장이 어려웠는데요, 이번에 기반을 재구성하면서 CLI·Kanban에 먼저 적용했고 IDE 확장도 순차 이관 중이에요

기존엔 에이전트 루프와 VS Code 확장이 강하게 묶여 있어서 유지보수와 환경 확장이 어려웠는데요, 이번에 기반을 재구성하면서 CLI·Kanban에 먼저 적용했고 IDE 확장도 순차 이관 중이에요.

잡돌쌤2분 소요

지금은 Google AI Studio에서 이미지 편집·지도 장소 탐색 데모 2개가 라이브고, 둘 다 가리키기와 음성으로 조작돼요

지금은 Google AI Studio에서 이미지 편집·지도 장소 탐색 데모 2개가 라이브고, 둘 다 가리키기와 음성으로 조작돼요.

잡돌쌤2분 소요

이 프레임워크는 LLM이 다음 단계를 즉흥적으로 고르는 대신, Rust 엔진이 라우팅·상태 전이·도구 호출을 결정론적으로 관리해요

이 프레임워크는 LLM이 다음 단계를 즉흥적으로 고르는 대신, Rust 엔진이 라우팅·상태 전이·도구 호출을 결정론적으로 관리해요.

잡돌쌤2분 소요

관련 글

기존엔 에이전트 루프와 VS Code 확장이 강하게 묶여 있어서 유지보수와 환경 확장이 어려웠는데요, 이번에 기반을 재구성하면서 CLI·Kanban에 먼저 적용했고 IDE 확장도 순차 이관 중이에요

지금은 Google AI Studio에서 이미지 편집·지도 장소 탐색 데모 2개가 라이브고, 둘 다 가리키기와 음성으로 조작돼요

이 프레임워크는 LLM이 다음 단계를 즉흥적으로 고르는 대신, Rust 엔진이 라우팅·상태 전이·도구 호출을 결정론적으로 관리해요