Anthropic์ด Claude Opus 4.8์ ๊ณต๊ฐํ๊ณ , ๋๋ถ๋ถ ๋ฒค์น๋งํฌ์์ GPT-5.5์ Gemini 3.1 Pro๋ฅผ ์์ฐ์ด์.
์์ด์ ํฑ ์ฝ๋ฉ(SWE-Bench Pro)์ 69.2%๋ก Opus 4.7์ 64.3%, GPT-5.5์ 58.6%๋ณด๋ค ๋์์ด์. Humanity's Last Exam์ ๋๊ตฌ ์์ด 49.8%, ๋๊ตฌ ์ฌ์ฉ ์ 57.9%๋ก ์ต๊ณ ์ ์๋ฅผ ๊ธฐ๋กํ์ด์.
Anthropic์ ํนํ ์ ์ง์ฑ ๊ฐ์ ์ ๊ฐ์กฐํ์ด์. ์ด๊ธฐ ํ ์คํฐ ๊ธฐ์ค์ผ๋ก ๋ถํ์ค์ฑ์ ๋ ์์ฃผ ๋ฐํ๊ณ , ๊ทผ๊ฑฐ ์๋ ์ฃผ์ฅ๋ ์ค์๊ณ ์. ์์ฒด ์ฝ๋ฉ ํ๊ฐ์์ ๋ฒ๊ทธ๋ฅผ ๊ทธ๋ฅ ๋๊ธฐ๋ ๋น์จ์ด 4.7 ๋๋น ์ฝ 4๋ฐฐ ๊ฐ์ํ๋ค๊ณ ๋ฐํ์ด์.
๋ชจ๋ธ ์ฑ๋ฅ๋ ํฌ์ง๋ง, ํ ์ธ์ ์์ ์๋ฐฑ ๊ฐ ๋ณ๋ ฌ ์๋ธ์์ด์ ํธ๋ฅผ ๋๋ฆฌ๋ ๋์ ์ํฌํ๋ก์ฐ๊ฐ ์ค์ ์ ๋ฌด ์๋ํ์ ์ฒด๊ฐ ๋ณํ๋ฅผ ํค์ธ ํฌ์ธํธ์์.