AI ์ฝ๋ฉ ์ค๋ ฅ์ ๋น๊ตํ๋ ๋ํ ๋ฒค์น๋งํฌ๊ฐ ์์ด์. SWE-bench Verified๋ผ๊ณ , OpenAI, Anthropic, Google ๋ค ์ฌ๊ธฐ์ ์์ ๊ฒฝ์์ ํด์๊ฑฐ๋ ์.
๊ทธ๋ฐ๋ฐ OpenAI๊ฐ "์ด ๋ฒค์น๋งํฌ ์ด์ ํ๊ธฐํ์"๊ณ ์ฃผ์ฅํ์ด์.
์ด์ ๊ฐ ๋ ๊ฐ์ง์์.
์ฒซ์งธ, ๋ฌธ์ ์ 59.4%๊ฐ ๊ฒฐํจ์ด ์์ด์. ๋ง๋ ๋ต์ ๋ด๋ ํน์ ๊ตฌํ ๋ฐฉ์์ ์ ๋ฐ๋ฅด๋ฉด ํ๋ ธ๋ค๊ณ ์ฒ๋ฆฌํ๋ ๊ฑฐ์์.
๋์งธ, GPT-5.2, Claude Opus 4.5, Gemini 3 Flash Preview ๊ฐ์ ๋ชจ๋ธ๋ค์ด ์ ๋ต์ ์ธ์๋ฒ๋ ธ์ด์. ํ์ต ๋ฐ์ดํฐ์ ๋ฌธ์ ์ ๋ต์ด ํฌํจ๋ผ ์์ด์, ์ฝ๋ฉ ์ค๋ ฅ์ด ์๋๋ผ ์๊ธฐ๋ ฅ์ ์ธก์ ํ๋ ๊ผด์ด ๋ ๊ฑฐ์ฃ .
OpenAI๋ ๋์์ผ๋ก SWE-bench Pro๋ฅผ ์ถ์ฒํ๊ณ , ์์ฒด ๋น๊ณต๊ฐ ํ ์คํธ๋ ๋ง๋ค๊ณ ์๋ค๊ณ ํด์.
๊ทผ๋ฐ ์ฌ๊ธฐ์ ์ฌ๋ฐ๋ ์ ์ด ์์ด์. ์ค์ผ๋ ๋ฒค์น๋งํฌ๊ฐ ์คํ์์ค ๋ชจ๋ธํํ ์ ๋ฆฌํ๊ฒ ์์ฉํ ์ ์๊ฑฐ๋ ์. OpenAI ์ ์ฅ์์๋ ๊ฒฝ์์ ์์๋ฅผ ๋ฎ์ถ๋ ค๋ ์ ๋ต์ผ ์๋ ์๋ค๋ ์๊ฐ๋ ์์ด์.