์ ๋ ผ๋ฌธ ARR-RPO๊ฐ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ ๋ณด์์ ์ ์ 1๊ฐ๊ฐ ์๋๋ผ ๋ช ์์ ๋ฃจ๋ธ๋ฆญ์ผ๋ก ๋ฐ๊พธ์๊ณ ์ ์ํ์ด์.
๊ธฐ์กด RLHF๋ ์ฌ๋ ์ ํธ๋ฅผ ์ค์นผ๋ผ๋ ์๋น๊ต ๋ผ๋ฒจ๋ก ์์ถํด ๋ณด์ ํดํน๊ณผ ํธํฅ์ ์ทจ์ฝํ๋๋ฐ์, ARR์ ๋น๊ต ์ ์ VLM์ด ํ๋กฌํํธ๋ณ ํ๊ฐ ๊ธฐ์ค์ ๋จผ์ ๋ง๋ค๊ณ ์ฐจ์๋ณ๋ก ๊ฒ์ฆํ๊ฒ ํด์. ์ด ๋ฐฉ์์ด positional bias ๊ฐ์ ํ๊ฐ ํธํฅ์ ์ค์ด๊ณ zero-shot, few-shot(์ต์ ๊ฐ๋ )์์๋ ๋์ํ๋ค๊ณ ๋ฐํ์ด์.
์ฌ๊ธฐ์ RPO๋ฅผ ๋ถ์ฌ ๋ค์ฐจ์ ํ๊ฐ๋ฅผ ์์ ์ ์ธ ์ด์ง ๋ณด์์ผ๋ก ์ฆ๋ฅํด ์ ์ฑ ํ์ต์ ์์ ํํ๊ณ , ํ ์คํธ-ํฌ-์ด๋ฏธ์ง์ ์ด๋ฏธ์ง ํธ์ง ๋ฒค์น๋งํฌ์์ ์๋น๊ต ๋ณด์๋ชจ๋ธ๊ณผ VLM ์ฌํ๋ณด๋ค ์ฑ๋ฅ์ด ๋์์ด์. 28ํ์ด์ง, ๊ทธ๋ฆผ 10๊ฐ, ํ 11๊ฐ๋ก ๊ณต๊ฐ๋ arXiv:2605.08354 ๊ฒฐ๊ณผ์์.
ํต์ฌ์ ๋ชจ๋ธ์ด ์ง์์ ๋ชฐ๋ผ์๊ฐ ์๋๋ผ, ์ ํธ๋ฅผ ๋ถํดํด ๋ค๋ฃฐ ์ธํฐํ์ด์ค๊ฐ ๋ถ์กฑํ๋ค๋ ๋ฌธ์ ์ ๊ธฐ์์.