ํ ํธ๋ฆฌ์ค RL ํ์ต ์๋๋ฅผ 53๋ฐฐ ๋์ด์ฌ๋ฆฐ ๋นํธ๋ณด๋ ๊ธฐ๋ฐ AI ํ๋ ์์ํฌ๊ฐ ๋์์ด์.
์ฐ๊ตฌํ์ ๋ณด๋์ ํ ํธ๋ก๋ฏธ๋ ธ๋ฅผ ๋นํธ๋ณด๋๋ก ์ฌ์ค๊ณํด ์ถฉ๋ ํ์ , ์ค ์ญ์ , ํน์ง ์ถ์ถ์ ๋นํธ ์ฐ์ฐ์ผ๋ก ์ฒ๋ฆฌํ์ด์. ๊ทธ ๊ฒฐ๊ณผ OpenAI Gym-Tetris ๋๋น ์๋ฎฌ๋ ์ด์ ์๋๊ฐ 53๋ฐฐ ๋นจ๋ผ์ก๊ฑฐ๋ ์.
๋ afterstate๋ฅผ ํ๊ฐํ๋ ์กํฐ ๋คํธ์ํฌ๋ฅผ ๋์ ํด, ๊ธฐ์กด action-value ๋ฐฉ์๋ณด๋ค ๋ ์ ์ ํ๋ผ๋ฏธํฐ๋ก ์ฑ๋ฅ์ ๋์์ด์. ๋ฒํผ ์ต์ ํ PPO๊น์ง ๊ฒฐํฉํด 10x10 ๊ทธ๋ฆฌ๋์์ 3๋ถ ์์ ํ๊ท ์ ์ 3,829๋ฅผ ๊ธฐ๋กํ์ด์.
OpenAI Gym ํ์ค์ ๋ฐ๋ฅด๋ Python-Java ์ธํฐํ์ด์ค๋ ์ ๊ณตํด์ ์ต์ RL ํ๋ ์์ํฌ์ ๋ฐ๋ก ๋ถ์ผ ์ ์์ด์. ์ ์์ค ์์ง ์ต์ ํ์ ๊ณ ์์ค ์ ์ฑ ํ์ต์ ํจ๊ป ์ก์, RL ๋ฒค์น๋งํฌ ํจ์จ์ ํ ๋จ๊ณ ์ฌ๋ฆฐ ์ฌ๋ก์์.