OpenAI์ gpt-oss-20b ๋ฒค์น๋งํฌ ์ ์๋ฅผ ๋ ๋ฆฝ ์ฐ๊ตฌํ์ด ์ฒ์์ผ๋ก ์ฌํํ๋ ๋ฐ ์ฑ๊ณตํ์ด์.
์๋ ๋ ผ๋ฌธ์ ๋๊ตฌ ์ ์๋ ์์ด์ ํธ harness๊ฐ ๊ณต๊ฐ๋์ง ์์์ ์ง๊ธ๊ป ์๋ฌด๋ ๊ฒ์ฆ์ ๋ชป ํ๊ฑฐ๋ ์. ์ฐ๊ตฌํ์ ์ญ๊ณตํ์ผ๋ก ๋ชจ๋ธ์ ํ์ต ๋ถํฌ ๋ด ๋๊ตฌ๋ฅผ ํ์ ํ๊ณ , ๋ค์ดํฐ๋ธ ๋ฉ์์ง ํฌ๋งท์ ์ง์ ์ธ์ฝ๋ฉํ๋ harmony ์์ด์ ํธ๋ฅผ ์ง์ ๋ง๋ค์์ด์.
๊ฒฐ๊ณผ๋ SWE Verified HIGH 60.4% (๊ณต๊ฐ ์์น 60.7%), MEDIUM 53.3% (53.2%), AIME25 with tools 91.7% (90.4%)๋ก ์๋ฌธ๊ณผ ๊ฑฐ์ ์ผ์นํ์ด์.
AI ๋ฒค์น๋งํฌ ์ฌํ ๊ฐ๋ฅ์ฑ ๋ ผ๋์ด ๊ณ์๋๋ ์ํฉ์์, ์ 3์ ๊ฒ์ฆ ๋ฌธํ๊ฐ ์๋ฆฌ ์ก๊ธฐ ์์ํ๋ค๋ ์ ํธ๋ก ์ฝํ ์ ์์ด์.