2026-06-15

κΈ°μ‘΄ 평가 νˆ΄λ“€μ΄ μ™„μ„±λœ λͺ¨λΈμ„ μΈ‘μ •ν•˜λŠ” 데 μ΄ˆμ μ„ λ’€λ‹€λ©΄, 이건 λͺ¨λΈμ΄ 계속 λ°”λ€ŒλŠ” 개발 쀑간에 쓰도둝 μ„€κ³„λκ±°λ“ μš”

πŸ’‘ ν•œμ€„ μš”μ•½|κΈ°μ‘΄ 평가 νˆ΄λ“€μ΄ μ™„μ„±λœ λͺ¨λΈμ„ μΈ‘μ •ν•˜λŠ” 데 μ΄ˆμ μ„ λ’€λ‹€λ©΄, 이건 λͺ¨λΈμ΄ 계속 λ°”λ€ŒλŠ” 개발 쀑간에 쓰도둝 μ„€κ³„λκ±°λ“ μš”.

AI μ—°κ΅¬μ†Œ Allen AIκ°€ LLM 개발 루프 μ „μš© 평가 도ꡬ olmo-eval을 κ³΅κ°œν–ˆμ–΄μš”. κΈ°μ‘΄ 평가 νˆ΄λ“€μ΄ μ™„μ„±λœ λͺ¨λΈμ„ μΈ‘μ •ν•˜λŠ” 데 μ΄ˆμ μ„ λ’€λ‹€λ©΄, 이건 λͺ¨λΈμ΄ 계속 λ°”λ€ŒλŠ” 개발 쀑간에 쓰도둝 μ„€κ³„λκ±°λ“ μš”.

2024λ…„ 곡개된 OLMES(μ˜€ν”ˆ 벀치마크 ν‘œμ€€)λ₯Ό 기반으둜 λ§Œλ“€μ–΄μ‘ŒλŠ”λ°, μƒˆ 평가 ν•­λͺ© μΆ”κ°€κ°€ 훨씬 μ‰¬μ›Œμ‘Œκ³  멀티턴·에이전틱 평가도 κΈ°λ³Έ μ§€μ›ν•΄μš”. 벀치마크 점수 차이가 μ§„μ§œ κ°œμ„ μΈμ§€ λ…Έμ΄μ¦ˆμΈμ§€ νŒλ³„ν•˜λŠ” 뢄석 κΈ°λŠ₯도 λ“€μ–΄κ°”μ–΄μš”.

Olmo, Tulu 같은 μ˜€ν”ˆ λͺ¨λΈ κ°œλ°œμ— μ“°λ˜ λ‚΄λΆ€ 도ꡬλ₯Ό μ˜€ν”ˆμ†ŒμŠ€λ‘œ ν‘Ό 거라, LLM 직접 ν›ˆλ ¨ν•˜λŠ” νŒ€μ—κ² κ½€ μ‹€μš©μ μΈ 선택지가 생긴 μ…ˆμ΄μ—μš”.

이 글이 μ–΄λ• λ‚˜μš”?