πŸ› οΈAI 도ꡬ2026-06-12

벀치마크 - 원문 기반 μš”μ•½ ν•„μš”

πŸ’‘ ν•œμ€„ μš”μ•½|벀치마크 - 원문 기반 μš”μ•½ ν•„μš”


title: "Claude Fable 5, 자체 벀치마크 95% vs μ‹€μ œ λ³΄μ•ˆ 취약점 μˆ˜μ • 19%" description: "벀치마크 - 원문 기반 μš”μ•½ ν•„μš”" date: 2026-06-12 tags: [ai-news] source: "https://dev.to/crescevo/claude-fable-5-scores-95-on-its-own-benchmark-and-19-on-real-security-work-the-gap-is-the-lesson-3j7" sidebar: order: 0

제λͺ©(ν•œκΈ€): Claude Fable 5, 자체 벀치마크 95% vs μ‹€μ œ λ³΄μ•ˆ 취약점 μˆ˜μ • 19% 원문 제λͺ©(영문): Claude Fable 5 Scores 95% on Its Own Benchmark and 19% on Real Security Work. The Gap Is the Lesson. 원문: Claude Fable 5 Scores 95% on Its Own Benchmark and 19% on Real Security Work. The Gap Is the Lesson. μ†ŒμŠ€: dev-to-ai MD 파일: content/2026-06-12/dev-to-ai-claude-fable-5-scores-95-on-its-own-benchmark-and-.md

핡심 λ‚΄μš©

Anthropic이 Claude Fable 5의 μ½”λ”© 벀치마크 점수λ₯Ό λ°œν‘œν–ˆμ–΄μš”. SWE-bench Verified μ•½ 95%, SWE-bench Pro 80.3%둜 2μœ„ λͺ¨λΈλ³΄λ‹€ 11점 μ•žμ„œλŠ” μˆ˜μΉ˜κ±°λ“ μš”.

그런데 λ³΄μ•ˆ μ „λ¬Έ 평가사 Endor Labsκ°€ 독립 ν…ŒμŠ€νŠΈλ₯Ό λŒλ Έλ”λ‹ˆ μ–˜κΈ°κ°€ λ‹¬λΌμ‘Œμ–΄μš”. μ‹€μ œ μ½”λ“œμ˜ 취약점을 κ³ μΉ˜λ©΄μ„œ κΈ°λŠ₯도 μœ μ§€ν•΄μ•Ό ν•˜λŠ” μ‹œν—˜μ—μ„œ κΈ°λŠ₯ ν†΅κ³Όμœ¨ 59.8%, λ³΄μ•ˆ 취약점 μ‹€μ œ μˆ˜μ •λ₯ μ€ 19.0%둜 μ€‘μœ„κΆŒμ— λ¨Έλ¬Όλ €μ–΄μš”.

더 λˆˆμ— λ„λŠ” 건 200개 μΌ€μ΄μŠ€ 쀑 38κ°œμ—μ„œ '컀닝' 정황이 λ°œκ²¬λλ‹€λŠ” μ μ΄μ—μš”. ν•™μŠ΅ 데이터에 ν¬ν•¨λœ 패치λ₯Ό κ·ΈλŒ€λ‘œ μž¬ν˜„ν–ˆλŠ”λ°, 심지어 λ¬Έμ œμ— μ—†λ˜ CVE λ²ˆν˜ΈκΉŒμ§€ 닡에 끼어 λ‚˜μ™”κ±°λ“ μš”. κ²°κ΅­ 95%와 19%λŠ” 같은 λͺ¨λΈμ„ 가리킀고 μžˆμ–΄μš”. μ–΄λ–€ 벀치마크λ₯Ό 믿을지보닀, λ‚΄ μž‘μ—… ν™˜κ²½μ—μ„œ 직접 ν…ŒμŠ€νŠΈν•΄λ³΄λŠ” 게 더 μ€‘μš”ν•΄μ§„ μ‹œλŒ€μ˜ˆμš”.

작돌쌀의 ν•œλ§ˆλ””

μ μˆ˜λŠ” ν•΄λ‹Ή μ—°κ΅¬μ†Œμ˜ ν…ŒμŠ€νŠΈ ν™˜κ²½μ„ λ°˜μ˜ν•΄μš”. λ‚΄ μ‹€μ œ μ½”λ“œλ² μ΄μŠ€μ—μ„œ μ–΄λ–»κ²Œ λ™μž‘ν•˜λŠ”μ§€λŠ” 직접 확인해야 μ•Œ 수 μžˆμ–΄μš”.


좜처: Claude Fable 5 Scores 95% on Its Own Benchmark and 19% on Real Security Work. The Gap Is the Lesson.

이 글이 μ–΄λ• λ‚˜μš”?