πŸ“ˆμ„±κ³΅μ‚¬λ‘€2026-06-20

λ‰΄μŠ€ - 원문 기반 μš”μ•½ ν•„μš”

πŸ’‘ ν•œμ€„ μš”μ•½|λ‰΄μŠ€ - 원문 기반 μš”μ•½ ν•„μš”


title: "AI, μ‹€μ œ μ§€μ‹μ—…λ¬΄μ—μ„œ 3%만 μ™„λ²½ ν•΄κ²°" description: "λ‰΄μŠ€ - 원문 기반 μš”μ•½ ν•„μš”" date: 2026-06-20 tags: [ai-news] source: "https://the-decoder.com/new-benchmark-exposes-how-badly-ai-struggles-with-real-knowledge-work/" sidebar: order: 0

제λͺ©(ν•œκΈ€): AI, μ‹€μ œ μ§€μ‹μ—…λ¬΄μ—μ„œ 3%만 μ™„λ²½ ν•΄κ²° 원문 제λͺ©(영문): New benchmark exposes how badly AI struggles with real knowledge work 원문: New benchmark exposes how badly AI struggles with real knowledge work μ†ŒμŠ€: the-decoder MD 파일: content/2026-06-20/the-decoder-new-benchmark-exposes-how-badly-ai-struggles-with-.md

핡심 λ‚΄μš©

μ΅œμ‹  λ²€μΉ˜λ§ˆν¬μ—μ„œ AIκ°€ μ‹€μ œ 업무 과제λ₯Ό μ™„λ²½νžˆ ν•΄κ²°ν•œ λΉ„μœ¨μ€ 단 3%에 κ·Έμ³€μ–΄μš”.

Artificial Analysisκ°€ κ³΅κ°œν•œ AA-Briefcase λ²€μΉ˜λ§ˆν¬λŠ” μŠ¬λž™ μŠ€λ ˆλ“œ, 이메일, 회의둝, λŒ€μš©λŸ‰ 데이터 파일처럼 ν˜„μ‹€μ—μ„œ μ“°λŠ” 수천 개의 λ‹¨νŽΈ 자료둜 κ΅¬μ„±λœ λ©€ν‹°μœ„ν¬ ν”„λ‘œμ νŠΈμ˜ˆμš”. 1μœ„λ₯Ό μ°¨μ§€ν•œ Claude Fable 5도 91개 과제 쀑 31κ°œμ—μ„œ λͺ¨λ“  λͺ¨λΈμ΄ 50% 합격선을 λ„˜μ§€ λͺ»ν–ˆκ±°λ“ μš”.

μ‹€λ ₯이 λ†’μ•„μ§ˆμˆ˜λ‘ μ‹€μˆ˜ μœ ν˜•λ„ λ‹¬λΌμ Έμš”. μ•½ν•œ λͺ¨λΈμ€ 파일 탐색 자체λ₯Ό λͺ» ν•˜μ§€λ§Œ, κ°•ν•œ λͺ¨λΈμ€ λͺ…λ°±ν•œ μš”κ±΄μ€ μ²˜λ¦¬ν•˜λ©΄μ„œλ„ μ—¬λŸ¬ λ¬Έμ„œλ₯Ό κ΅μ°¨ν•΄μ•Όλ§Œ λ³΄μ΄λŠ” μ„ΈλΆ€ 사항을 λ†“μ³μš”. κ³Όμ œλ‹Ή λΉ„μš©λ„ DeepSeek V4 Flash의 $0.04λΆ€ν„° Claude Fable 5의 $31κΉŒμ§€ 800λ°° 이상 차이가 λ‚˜κ³ μš”.

'AIκ°€ 일을 λ‹€ ν•΄μ€€λ‹€'λŠ” κΈ°λŒ€μ™€ ν˜„μ‹€ μ‚¬μ΄μ˜ 간격이 아직 κ½€ ν¬λ‹€λŠ” κ±Έ λ³΄μ—¬μ£ΌλŠ” κ²°κ³Όμ˜ˆμš”.

작돌쌀의 ν•œλ§ˆλ””

κ°•ν•œ λͺ¨λΈμΌμˆ˜λ‘ 'λˆˆμ— λ„λŠ” μ‹€μˆ˜'λŠ” μ€„μ§€λ§Œ, μ—¬λŸ¬ λ¬Έμ„œλ₯Ό ꡐ차해야 λ³΄μ΄λŠ” μ„ΈλΆ€ 사항을 λ†“μΉ˜λŠ” 더 μ‘°μš©ν•œ μ‹€νŒ¨κ°€ λŠ˜μ–΄λ‚˜μš”.


좜처: New benchmark exposes how badly AI struggles with real knowledge work

이 글이 μ–΄λ• λ‚˜μš”?