title: "AI2, LLM κ°λ° μ μ© νκ° μν¬λ²€μΉ olmo-eval 곡κ°" description: "λ΄μ€ - μλ¬Έ κΈ°λ° μμ½ νμ" date: 2026-06-15 tags: [ai-news] source: "https://huggingface.co/blog/allenai/olmo-eval" sidebar: order: 0
μ λͺ©(νκΈ): AI2, LLM κ°λ° μ μ© νκ° μν¬λ²€μΉ olmo-eval κ³΅κ° μλ¬Έ μ λͺ©(μλ¬Έ): olmo-eval: An evaluation workbench for the model development loop μλ¬Έ: olmo-eval: An evaluation workbench for the model development loop μμ€: huggingface MD νμΌ: content/2026-06-15/huggingface-olmo-eval-an-evaluation-workbench-for-the-model-de.md
ν΅μ¬ λ΄μ©
AI μ°κ΅¬μ Allen AIκ° LLM κ°λ° 루ν μ μ© νκ° λꡬ olmo-evalμ 곡κ°νμ΄μ. κΈ°μ‘΄ νκ° ν΄λ€μ΄ μμ±λ λͺ¨λΈμ μΈ‘μ νλ λ° μ΄μ μ λλ€λ©΄, μ΄κ±΄ λͺ¨λΈμ΄ κ³μ λ°λλ κ°λ° μ€κ°μ μ°λλ‘ μ€κ³λκ±°λ μ.
2024λ 곡κ°λ OLMES(μ€ν λ²€μΉλ§ν¬ νμ€)λ₯Ό κΈ°λ°μΌλ‘ λ§λ€μ΄μ‘λλ°, μ νκ° νλͺ© μΆκ°κ° ν¨μ¬ μ¬μμ‘κ³ λ©ν°ν΄Β·μμ΄μ ν± νκ°λ κΈ°λ³Έ μ§μν΄μ. λ²€μΉλ§ν¬ μ μ μ°¨μ΄κ° μ§μ§ κ°μ μΈμ§ λ Έμ΄μ¦μΈμ§ νλ³νλ λΆμ κΈ°λ₯λ λ€μ΄κ°μ΄μ.
Olmo, Tulu κ°μ μ€ν λͺ¨λΈ κ°λ°μ μ°λ λ΄λΆ λꡬλ₯Ό μ€νμμ€λ‘ νΌ κ±°λΌ, LLM μ§μ νλ ¨νλ νμκ² κ½€ μ€μ©μ μΈ μ νμ§κ° μκΈ΄ μ μ΄μμ.
μ‘λμ€μ νλ§λ
μμ΄μ ν±Β·λ©ν°ν΄ νκ°λ₯Ό κΈ°λ³Έ μ§μνκ³ , μ μ μ°¨μ΄κ° μ§μ§ κ°μ μΈμ§ λ Έμ΄μ¦μΈμ§ νλ³νλ λΆμ λꡬκΉμ§ ν¬ν¨λμ΄μ.
μΆμ²: olmo-eval: An evaluation workbench for the model development loop