|잡돌쌤•2026-05-29•2분 소요

에이전틱 코딩(SWE-Bench Pro)은 69.2%로 Opus 4.7의 64.3%, GPT-5.5의 58.6%보다 높았어요

💡 한줄 요약|에이전틱 코딩(SWE-Bench Pro)은 69.2%로 Opus 4.7의 64.3%, GPT-5.5의 58.6%보다 높았어요.

Anthropic이 Claude Opus 4.8을 공개했고, 대부분 벤치마크에서 GPT-5.5와 Gemini 3.1 Pro를 앞섰어요.

에이전틱 코딩(SWE-Bench Pro)은 69.2%로 Opus 4.7의 64.3%, GPT-5.5의 58.6%보다 높았어요. Humanity's Last Exam은 도구 없이 49.8%, 도구 사용 시 57.9%로 최고 점수를 기록했어요.

Anthropic은 특히 정직성 개선을 강조했어요. 초기 테스터 기준으로 불확실성을 더 자주 밝히고, 근거 없는 주장도 줄었고요. 자체 코딩 평가에선 버그를 그냥 넘기는 비율이 4.7 대비 약 4배 감소했다고 밝혔어요.

모델 성능도 크지만, 한 세션에서 수백 개 병렬 서브에이전트를 돌리는 동적 워크플로우가 실제 업무 자동화의 체감 변화를 키울 포인트예요.

이 글이 어땠나요?

관련 글

AI 에이전트가 추론 시점에 실시간 데이터를 직접 끌어올 수 있게 된 거예요

AI 에이전트가 추론 시점에 실시간 데이터를 직접 끌어올 수 있게 된 거예요.

잡돌쌤2분 소요

바이브 코딩은 직관과 즉흥적 요구사항으로 빠르게 구현하는 방식이고, 스펙 코딩은 코드 한 줄 쓰기 전에 문서화와 설계를 먼저 끝내는 방식이에요

바이브 코딩은 직관과 즉흥적 요구사항으로 빠르게 구현하는 방식이고, 스펙 코딩은 코드 한 줄 쓰기 전에 문서화와 설계를 먼저 끝내는 방식이에요.

잡돌쌤2분 소요

루카 과다니노 감독이 메가폰을 잡고 앤드루 가필드가 샘 알트만 역을 맡은 작품인데요

루카 과다니노 감독이 메가폰을 잡고 앤드루 가필드가 샘 알트만 역을 맡은 작품인데요.

잡돌쌤2분 소요