📰 AI, 실제 지식업무에서 3%만 완벽 해결

title: "AI, 실제 지식업무에서 3%만 완벽 해결" description: "뉴스 - 원문 기반 요약 필요" date: 2026-06-20 tags: [ai-news] source: "https://the-decoder.com/new-benchmark-exposes-how-badly-ai-struggles-with-real-knowledge-work/" sidebar: order: 0

제목(한글): AI, 실제 지식업무에서 3%만 완벽 해결 원문 제목(영문): New benchmark exposes how badly AI struggles with real knowledge work 원문: New benchmark exposes how badly AI struggles with real knowledge work 소스: the-decoder MD 파일: content/2026-06-20/the-decoder-new-benchmark-exposes-how-badly-ai-struggles-with-.md

핵심 내용

최신 벤치마크에서 AI가 실제 업무 과제를 완벽히 해결한 비율은 단 3%에 그쳤어요.

Artificial Analysis가 공개한 AA-Briefcase 벤치마크는 슬랙 스레드, 이메일, 회의록, 대용량 데이터 파일처럼 현실에서 쓰는 수천 개의 단편 자료로 구성된 멀티위크 프로젝트예요. 1위를 차지한 Claude Fable 5도 91개 과제 중 31개에서 모든 모델이 50% 합격선을 넘지 못했거든요.

실력이 높아질수록 실수 유형도 달라져요. 약한 모델은 파일 탐색 자체를 못 하지만, 강한 모델은 명백한 요건은 처리하면서도 여러 문서를 교차해야만 보이는 세부 사항을 놓쳐요. 과제당 비용도 DeepSeek V4 Flash의 $0.04부터 Claude Fable 5의 $31까지 800배 이상 차이가 나고요.

'AI가 일을 다 해준다'는 기대와 현실 사이의 간격이 아직 꽤 크다는 걸 보여주는 결과예요.

잡돌쌤의 한마디

강한 모델일수록 '눈에 띄는 실수'는 줄지만, 여러 문서를 교차해야 보이는 세부 사항을 놓치는 더 조용한 실패가 늘어나요.

출처: New benchmark exposes how badly AI struggles with real knowledge work

title: "AI, 실제 지식업무에서 3%만 완벽 해결" description: "뉴스 - 원문 기반 요약 필요" date: 2026-06-20 tags: [ai-news] source: "https://the-decoder.com/new-benchmark-exposes-how-badly-ai-struggles-with-real-knowledge-work/" sidebar: order: 0

핵심 내용

잡돌쌤의 한마디

관련 글

뉴스 - 원문 기반 요약 필요

뉴스 - 원문 기반 요약 필요

뉴스 - 원문 기반 요약 필요