์ด๊ฒ ๋ญ๋ฐ? ๐ค
AI ์์ด์ ํธ ๊ฐ๋ฐ์ ๊ฐ์ฅ ํฐ ๊ณ ํต์ ์ฑ๋ฅ ๊ฒ์ฆ์ด์ผ. ๋ชจ๋ธ์ด ์ ๋๋ก ๋์ํ๋์ง, ์๋ชป๋ ์ ๋ณด๋ฅผ ์ถ๋ ฅํ์ง ์๋์ง ํ์ธํ๋ ค๋ฉด ์๋ ํ ์คํธ์ ์๊ฐ์ด ๋๋ฌด ๋ง์ด ๋ค์ด๊ฐ๊ฑฐ๋ . Rippletide Eval CLI๋ ์ด ๋ฌธ์ ๋ฅผ ํฐ๋ฏธ๋ ๋ช ๋ น์ด ํ ๋ฐฉ์ผ๋ก ํด๊ฒฐํด์ค.
ํนํ 1์ธ ๊ฐ๋ฐ์๋ ์์ ํ์๊ฒ ์ต์ ํ๋ ๋๊ตฌ์ผ. ๋ณต์กํ ์น ์ธํฐํ์ด์ค ์์ด ๋ฐ๋ก ์ฌ์ฉํ ์ ์๊ณ , ์๋ํ๋ ํ๊ฐ ์์คํ ์ผ๋ก ๋ฐ๋ณต ์์ ์ ์ค์ฌ์ค. ํ ๋ฃจ์๋ค์ด์ ๊ฐ์ง ๊ธฐ๋ฅ์ AI ๋ชจ๋ธ์ ์ ๋ขฐ์ฑ์ ๋์ด๋ ๋ฐ ํ์์ ์ด๋ผ ์ค์ ์๋น์ค ์ ์ฉ ์ ์ ํ์ ๊ฒ์ฆ ๋๊ตฌ๋ก ํ์ฉํ ์ ์์ด.
์ฌ์ธต ๋ถ์ (Q&A) ๐ง
Q. ์ด๋ค AI ๋ชจ๋ธ์ ํ๊ฐํ ์ ์์ด?
Claude 4.5 Opus๋ฅผ ํฌํจํ ๋ชจ๋ LLM ๊ธฐ๋ฐ ์์ด์ ํธ๋ฅผ ํ๊ฐํ ์ ์์ด. OpenAI, Anthropic, Mistral ๋ฑ ์ฃผ์ ๋ชจ๋ธ์ ๋ชจ๋ ์ง์ํด.
Q. ์ด๋ค ํ๊ฐ ์งํ๋ฅผ ์ ๊ณตํด?
- ํ ๋ฃจ์๋ค์ด์ KPI: ์๋ชป๋ ์ ๋ณด ์ถ๋ ฅ ๋น์จ
- ์ ํ๋ ์ ์: ์ง๋ฌธ์ ๋ํ ๋ต๋ณ ์ ํ๋
- ์๋ต ์๊ฐ: ์ฑ๋ฅ ๋ฒค์น๋งํฌ
- ์ฌํ์ฑ ํ ์คํธ: ๋์ผํ ์ง๋ฌธ์ ๋ํ ์ผ๊ด์ฑ
Q. ์ด๋ป๊ฒ ์๋ํ๋ ์ง๋ฌธ์ ์์ฑํด?
๋ด์ฅ๋ ์ง๋ฌธ ์์ฑ ์์ง์ด AI ๋ชจ๋ธ์ ์ง์ ๊ธฐ๋ฐ์ ๋ถ์ํด์ ์ ํฉํ ํ ์คํธ ์ผ์ด์ค๋ฅผ ์๋์ผ๋ก ๋ง๋ค์ด. ์ฌ์ฉ์ ์ ์ ์ง๋ฌธ๋ ์ง์ํด.
ํต์ฌ ๋ด์ฉ ์ ๋ฆฌ ๐
- ํฐ๋ฏธ๋์์ ์ฆ๊ฐ ํ๊ฐ:
rippletide eval --model claude-4.5-opus๋ช ๋ น์ด ํ ๋ฐฉ - ์๋ ์ง๋ฌธ ์์ฑ: AI ์ง์ ๊ธฐ๋ฐ์์ ์ต์ ํ๋ ํ ์คํธ ์ผ์ด์ค ์์ฑ
- ํ ๋ฃจ์๋ค์ด์ ๊ฐ์ง: ์๋ชป๋ ์ ๋ณด ์ถ๋ ฅ ๋น์จ ์๋ ๊ณ์ฐ
- ์ค์๊ฐ ํผ๋๋ฐฑ: ์งํ ์ํฉ๊ณผ ๊ฒฐ๊ณผ ์ฆ์ ํ์ธ
- ์์ธ ๋ณด๊ณ ์: PDF/JSON ํ์์ผ๋ก ๊ฒฐ๊ณผ ๋ด๋ณด๋ด๊ธฐ
MAX5์ ์๊ฐ ๐ฏ
๐จโ๐ป ๋ฐ์ด๋ธ ์ฝ๋ฉ ๋ ์ํผ
๋ฐฐํฌ ์ ์ ์๋์ผ๋ก ํ
์คํธ๋ฅผ ๋๋ฆฌ์.
"GitHub Actions ์ํฌํ๋ก์ฐ๋ฅผ ์ง์ค. PR์ด ์ฌ๋ผ์ค๋ฉด Rippletide Eval CLI๋ฅผ ์ค์นํ๊ณ , 'golden-dataset.json'์ ์๋ 50๊ฐ ์ง๋ฌธ์ ์์ด์ ํธ์ ๋์ ธ. ํ ๋ฃจ์๋ค์ด์
์ ์๊ฐ 10% ์ด์์ด๋ฉด ๋ฐฐํฌ๋ฅผ ๋ง๋ ์คํฌ๋ฆฝํธ๊น์ง."
๐ธ ์ฌ์ด๋ ํ๋ก์ ํธ ์์ด๋์ด
"Vertical Eval Kits": ๋ฒ๋ฅ , ์๋ฃ, ๊ธ์ต ๋ฑ ํน์ ๋ถ์ผ์ ํนํ๋ 'ํ๊ฐ ๋ฐ์ดํฐ์ (Q&A Set)' ํ๋งค. "๋น์ ์ ๋ฒ๋ฅ AI๊ฐ ํ์๋ฆฌํ๋์ง 10๋ถ์ ํ์ธํด๋ณด์ธ์" ๊ฐ์ ์ ๊ทผ.