์๋น๋์๊ฐ PivotRL์ ๊ณต๊ฐํ์ด์. ์ฅ๊ธฐ ์์ด์ ํธ ํ์ต์์ ์ ํ๋๋ ์ ์งํ๋ฉด์ ๋กค์์ ํด์ 4๋ฐฐ ์ ๊ฒ ์จ์ ํจ์จ์ ํฌ๊ฒ ๋์ด์ฌ๋ฆฐ ํ๋ ์์ํฌ์์.
๊ธฐ์กด์ SFT๋ ์ ๋ ดํ์ง๋ง OOD ์ผ๋ฐํ๊ฐ ์ฝํ๊ณ , E2E RL์ ์ฑ๋ฅ์ ์ข์ง๋ง ๋งค ์ ๋ฐ์ดํธ๋ง๋ค ๋คํ์ on-policy ๋กค์์์ด ํ์ํด ๋น์ฉ์ด ์ปธ๊ฑฐ๋ ์. PivotRL์ ๊ธฐ์กด SFT ๊ถค์ ์ ์ฌํ์ฉํด ์ด ๊ฐ๊ทน์ ์ค์ฌ์.
ํต์ฌ์ ์ ์ฒด ๊ถค์ ๋์ ํด ๋จ์๋ก ํ์ตํ๋ ๊ตฌ์กฐ์์. Pivot Filtering์ผ๋ก ๋ณด์ ๋ถ์ฐ์ด 0๋ณด๋ค ํฌ๊ณ (ฯยฒ(s)>0), ํ๊ท ๋ณด์์ด ์๊ณ๊ฐ๋ณด๋ค ๋ฎ์(ฮผ(s)<ฮปdiff) ์ํ๋ง ๊ณจ๋ผ ํ์ตํด์. ์ฌ๊ธฐ์ Functional Rewards๋ฅผ ๋ถ์ฌ ๋จ์ ๋ฌธ์์ด ์ผ์น ๋ณด์ ํ๊ณ๋ ๋ณด์ํด์.
๊ฒฐ๊ตญ โ์ด๋ ค์ด๋ฐ ํ์ต ์ ํธ๊ฐ ํฐ ํดโ์๋ง ์ฐ์ฐ์ ์ง์คํ๋ ์ ๋ต์ด๋ผ, ์์ด์ ํธํ AI์ ๋น์ฉ ๋๋น ์ฑ๋ฅ ๊ฒฝ์์ด ํ ๋จ๊ณ ๋นจ๋ผ์ง ๊ฐ๋ฅ์ฑ์ด ์ปค ๋ณด์ด๋ค์.