μ΄κ² λλ°? π€
AI μμ΄μ νΈ κ°λ°μ κ°μ₯ ν° κ³ ν΅μ μ±λ₯ κ²μ¦μ΄μΌ. λͺ¨λΈμ΄ μ λλ‘ λμνλμ§, μλͺ»λ μ 보λ₯Ό μΆλ ₯νμ§ μλμ§ νμΈνλ €λ©΄ μλ ν μ€νΈμ μκ°μ΄ λ무 λ§μ΄ λ€μ΄κ°κ±°λ . Rippletide Eval CLIλ μ΄ λ¬Έμ λ₯Ό ν°λ―Έλ λͺ λ Ήμ΄ ν λ°©μΌλ‘ ν΄κ²°ν΄μ€.
νΉν 1μΈ κ°λ°μλ μμ νμκ² μ΅μ νλ λꡬμΌ. 볡μ‘ν μΉ μΈν°νμ΄μ€ μμ΄ λ°λ‘ μ¬μ©ν μ μκ³ , μλνλ νκ° μμ€ν μΌλ‘ λ°λ³΅ μμ μ μ€μ¬μ€. ν 루μλ€μ΄μ κ°μ§ κΈ°λ₯μ AI λͺ¨λΈμ μ λ’°μ±μ λμ΄λ λ° νμμ μ΄λΌ μ€μ μλΉμ€ μ μ© μ μ νμ κ²μ¦ λκ΅¬λ‘ νμ©ν μ μμ΄.
μ¬μΈ΅ λΆμ (Q&A) π§
Q. μ΄λ€ AI λͺ¨λΈμ νκ°ν μ μμ΄?
Claude 4.5 Opusλ₯Ό ν¬ν¨ν λͺ¨λ LLM κΈ°λ° μμ΄μ νΈλ₯Ό νκ°ν μ μμ΄. OpenAI, Anthropic, Mistral λ± μ£Όμ λͺ¨λΈμ λͺ¨λ μ§μν΄.
Q. μ΄λ€ νκ° μ§νλ₯Ό μ 곡ν΄?
- ν 루μλ€μ΄μ KPI: μλͺ»λ μ 보 μΆλ ₯ λΉμ¨
- μ νλ μ μ: μ§λ¬Έμ λν λ΅λ³ μ νλ
- μλ΅ μκ°: μ±λ₯ λ²€μΉλ§ν¬
- μ¬νμ± ν μ€νΈ: λμΌν μ§λ¬Έμ λν μΌκ΄μ±
Q. μ΄λ»κ² μλνλ μ§λ¬Έμ μμ±ν΄?
λ΄μ₯λ μ§λ¬Έ μμ± μμ§μ΄ AI λͺ¨λΈμ μ§μ κΈ°λ°μ λΆμν΄μ μ ν©ν ν μ€νΈ μΌμ΄μ€λ₯Ό μλμΌλ‘ λ§λ€μ΄. μ¬μ©μ μ μ μ§λ¬Έλ μ§μν΄.
ν΅μ¬ λ΄μ© μ 리 π
- ν°λ―Έλμμ μ¦κ° νκ°:
rippletide eval --model claude-4.5-opusλͺ λ Ήμ΄ ν λ°© - μλ μ§λ¬Έ μμ±: AI μ§μ κΈ°λ°μμ μ΅μ νλ ν μ€νΈ μΌμ΄μ€ μμ±
- ν 루μλ€μ΄μ κ°μ§: μλͺ»λ μ 보 μΆλ ₯ λΉμ¨ μλ κ³μ°
- μ€μκ° νΌλλ°±: μ§ν μν©κ³Ό κ²°κ³Ό μ¦μ νμΈ
- μμΈ λ³΄κ³ μ: PDF/JSON νμμΌλ‘ κ²°κ³Ό λ΄λ³΄λ΄κΈ°
MAX5μ μκ° π―
π¨βπ» λ°μ΄λΈ μ½λ© λ μνΌ
λ°°ν¬ μ μ μλμΌλ‘ ν
μ€νΈλ₯Ό λ리μ.
"GitHub Actions μν¬νλ‘μ°λ₯Ό μ§μ€. PRμ΄ μ¬λΌμ€λ©΄ Rippletide Eval CLIλ₯Ό μ€μΉνκ³ , 'golden-dataset.json'μ μλ 50κ° μ§λ¬Έμ μμ΄μ νΈμ λμ Έ. ν 루μλ€μ΄μ
μ μκ° 10% μ΄μμ΄λ©΄ λ°°ν¬λ₯Ό λ§λ μ€ν¬λ¦½νΈκΉμ§."
πΈ μ¬μ΄λ νλ‘μ νΈ μμ΄λμ΄
"Vertical Eval Kits": λ²λ₯ , μλ£, κΈμ΅ λ± νΉμ λΆμΌμ νΉνλ 'νκ° λ°μ΄ν°μ (Q&A Set)' νλ§€. "λΉμ μ λ²λ₯ AIκ° νμ리νλμ§ 10λΆμ νμΈν΄λ³΄μΈμ" κ°μ μ κ·Ό.