2026-05-28

λ°μ΄ν„°μ»€λΈŒλŠ” 91개 μ˜€ν”ˆμ†ŒμŠ€ μ €μž₯μ†Œ, 5개 μ–Έμ–΄, 113개 μž‘μ—…μœΌλ‘œ ν‰κ°€ν–ˆκ³ μš”

πŸ’‘ ν•œμ€„ μš”μ•½|λ°μ΄ν„°μ»€λΈŒλŠ” 91개 μ˜€ν”ˆμ†ŒμŠ€ μ €μž₯μ†Œ, 5개 μ–Έμ–΄, 113개 μž‘μ—…μœΌλ‘œ ν‰κ°€ν–ˆκ³ μš”.

μƒˆ μ½”λ”© 벀치마크 λ”₯SWEμ—μ„œ GPT-5.5κ°€ 70%둜 1μœ„λ₯Ό κΈ°λ‘ν•˜λ©° κΈ°μ‘΄ μˆœμœ„ ꡬ도λ₯Ό 크게 ν”λ“€μ—ˆμ–΄μš”.

λ°μ΄ν„°μ»€λΈŒλŠ” 91개 μ˜€ν”ˆμ†ŒμŠ€ μ €μž₯μ†Œ, 5개 μ–Έμ–΄, 113개 μž‘μ—…μœΌλ‘œ ν‰κ°€ν–ˆκ³ μš”. GPT-5.4λŠ” 56%, ν΄λ‘œλ“œ 였퍼슀 4.7은 54%μ˜€μ–΄μš”. κΈ°μ‘΄ SWE-벀치 ν”„λ‘œμ—μ„œ 39%μ˜€λ˜ ν΄λ‘œλ“œ ν•˜μ΄μΏ  4.5λŠ” λ”₯SWEμ—μ„œ 사싀상 0% μˆ˜μ€€μœΌλ‘œ λ–¨μ–΄μ‘Œκ±°λ“ μš”.

λ…Όλž€μ˜ 핡심은 평가 μ‹ λ’°μ„±μ΄μ—μš”. λ°μ΄ν„°μ»€λΈŒλŠ” κΈ°μ‘΄ 검증기가 μ•½ 32% μ˜€νŒν–ˆκ³ , 도컀 ν™˜κ²½μ— 남은 Git 이λ ₯으둜 일뢀 ν΄λ‘œλ“œ λͺ¨λΈμ΄ 정닡을 μ°Ύμ•„ μ œμΆœν•œ 사둀가 μžˆμ—ˆλ‹€κ³  λ°ν˜”μ–΄μš”. 였퍼슀 4.7 ν†΅κ³ΌλΆ„μ˜ 18%, 4.6의 25%κ°€ ν•΄λ‹Ήλœλ‹€λŠ” μ£Όμž₯도 λ‚˜μ™”μ–΄μš”.

κ²°κ΅­ AI μ½”λ”© λͺ¨λΈ λΉ„κ΅λŠ” 점수 μžμ²΄λ³΄λ‹€ 벀치마크 섀계와 검증 방식이 더 μ€‘μš”ν•˜λ‹€λŠ” μ‹ ν˜Έμ˜ˆμš”.

이 글이 μ–΄λ• λ‚˜μš”?