๐Ÿค–๋ฐ”์ด๋ธŒ์ฝ”๋”ฉ2026-01-28

AI ์—์ด์ „ํŠธ ์ •ํ™•์„ฑ ๊ฒ€์ฆ์„ ์ž๋™ํ™”ํ•˜๋Š” Rippletide Eval - ํ• ๋ฃจ์‹œ๋„ค์ด์…˜ ๊ฐ์ง€๋ถ€ํ„ฐ ์ƒ์„ธ ๋ณด๊ณ ์„œ๊นŒ์ง€ CLI๋กœ ํ•ด๊ฒฐ

๐Ÿ’ก ํ•œ์ค„ ์š”์•ฝ|AI ์—์ด์ „ํŠธ ์ •ํ™•์„ฑ ๊ฒ€์ฆ์„ ์ž๋™ํ™”ํ•˜๋Š” Rippletide Eval - ํ• ๋ฃจ์‹œ๋„ค์ด์…˜ ๊ฐ์ง€๋ถ€ํ„ฐ ์ƒ์„ธ ๋ณด๊ณ ์„œ๊นŒ์ง€ CLI๋กœ ํ•ด๊ฒฐ

์ด๊ฒŒ ๋ญ”๋ฐ? ๐Ÿค”

AI ์—์ด์ „ํŠธ ๊ฐœ๋ฐœ์˜ ๊ฐ€์žฅ ํฐ ๊ณ ํ†ต์€ ์„ฑ๋Šฅ ๊ฒ€์ฆ์ด์•ผ. ๋ชจ๋ธ์ด ์ œ๋Œ€๋กœ ๋™์ž‘ํ•˜๋Š”์ง€, ์ž˜๋ชป๋œ ์ •๋ณด๋ฅผ ์ถœ๋ ฅํ•˜์ง€ ์•Š๋Š”์ง€ ํ™•์ธํ•˜๋ ค๋ฉด ์ˆ˜๋™ ํ…Œ์ŠคํŠธ์— ์‹œ๊ฐ„์ด ๋„ˆ๋ฌด ๋งŽ์ด ๋“ค์–ด๊ฐ€๊ฑฐ๋“ . Rippletide Eval CLI๋Š” ์ด ๋ฌธ์ œ๋ฅผ ํ„ฐ๋ฏธ๋„ ๋ช…๋ น์–ด ํ•œ ๋ฐฉ์œผ๋กœ ํ•ด๊ฒฐํ•ด์ค˜.

ํŠนํžˆ 1์ธ ๊ฐœ๋ฐœ์ž๋‚˜ ์ž‘์€ ํŒ€์—๊ฒŒ ์ตœ์ ํ™”๋œ ๋„๊ตฌ์•ผ. ๋ณต์žกํ•œ ์›น ์ธํ„ฐํŽ˜์ด์Šค ์—†์ด ๋ฐ”๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๊ณ , ์ž๋™ํ™”๋œ ํ‰๊ฐ€ ์‹œ์Šคํ…œ์œผ๋กœ ๋ฐ˜๋ณต ์ž‘์—…์„ ์ค„์—ฌ์ค˜. ํ• ๋ฃจ์‹œ๋„ค์ด์…˜ ๊ฐ์ง€ ๊ธฐ๋Šฅ์€ AI ๋ชจ๋ธ์˜ ์‹ ๋ขฐ์„ฑ์„ ๋†’์ด๋Š” ๋ฐ ํ•„์ˆ˜์ ์ด๋ผ ์‹ค์ œ ์„œ๋น„์Šค ์ ์šฉ ์ „์— ํ•„์ˆ˜ ๊ฒ€์ฆ ๋„๊ตฌ๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์–ด.

์‹ฌ์ธต ๋ถ„์„ (Q&A) ๐Ÿง

Q. ์–ด๋–ค AI ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์–ด?

Claude 4.5 Opus๋ฅผ ํฌํ•จํ•œ ๋ชจ๋“  LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋ฅผ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์–ด. OpenAI, Anthropic, Mistral ๋“ฑ ์ฃผ์š” ๋ชจ๋ธ์„ ๋ชจ๋‘ ์ง€์›ํ•ด.

Q. ์–ด๋–ค ํ‰๊ฐ€ ์ง€ํ‘œ๋ฅผ ์ œ๊ณตํ•ด?

  • ํ• ๋ฃจ์‹œ๋„ค์ด์…˜ KPI: ์ž˜๋ชป๋œ ์ •๋ณด ์ถœ๋ ฅ ๋น„์œจ
  • ์ •ํ™•๋„ ์ ์ˆ˜: ์งˆ๋ฌธ์— ๋Œ€ํ•œ ๋‹ต๋ณ€ ์ •ํ™•๋„
  • ์‘๋‹ต ์‹œ๊ฐ„: ์„ฑ๋Šฅ ๋ฒค์น˜๋งˆํฌ
  • ์žฌํ˜„์„ฑ ํ…Œ์ŠคํŠธ: ๋™์ผํ•œ ์งˆ๋ฌธ์— ๋Œ€ํ•œ ์ผ๊ด€์„ฑ

Q. ์–ด๋–ป๊ฒŒ ์ž๋™ํ™”๋œ ์งˆ๋ฌธ์„ ์ƒ์„ฑํ•ด?

๋‚ด์žฅ๋œ ์งˆ๋ฌธ ์ƒ์„ฑ ์—”์ง„์ด AI ๋ชจ๋ธ์˜ ์ง€์‹ ๊ธฐ๋ฐ˜์„ ๋ถ„์„ํ•ด์„œ ์ ํ•ฉํ•œ ํ…Œ์ŠคํŠธ ์ผ€์ด์Šค๋ฅผ ์ž๋™์œผ๋กœ ๋งŒ๋“ค์–ด. ์‚ฌ์šฉ์ž ์ •์˜ ์งˆ๋ฌธ๋„ ์ง€์›ํ•ด.

ํ•ต์‹ฌ ๋‚ด์šฉ ์ •๋ฆฌ ๐Ÿ“Œ

  • ํ„ฐ๋ฏธ๋„์—์„œ ์ฆ‰๊ฐ ํ‰๊ฐ€: rippletide eval --model claude-4.5-opus ๋ช…๋ น์–ด ํ•œ ๋ฐฉ
  • ์ž๋™ ์งˆ๋ฌธ ์ƒ์„ฑ: AI ์ง€์‹ ๊ธฐ๋ฐ˜์—์„œ ์ตœ์ ํ™”๋œ ํ…Œ์ŠคํŠธ ์ผ€์ด์Šค ์ƒ์„ฑ
  • ํ• ๋ฃจ์‹œ๋„ค์ด์…˜ ๊ฐ์ง€: ์ž˜๋ชป๋œ ์ •๋ณด ์ถœ๋ ฅ ๋น„์œจ ์ž๋™ ๊ณ„์‚ฐ
  • ์‹ค์‹œ๊ฐ„ ํ”ผ๋“œ๋ฐฑ: ์ง„ํ–‰ ์ƒํ™ฉ๊ณผ ๊ฒฐ๊ณผ ์ฆ‰์‹œ ํ™•์ธ
  • ์ƒ์„ธ ๋ณด๊ณ ์„œ: PDF/JSON ํ˜•์‹์œผ๋กœ ๊ฒฐ๊ณผ ๋‚ด๋ณด๋‚ด๊ธฐ

MAX5์˜ ์ƒ๊ฐ ๐ŸŽฏ

๐Ÿ‘จโ€๐Ÿ’ป ๋ฐ”์ด๋ธŒ ์ฝ”๋”ฉ ๋ ˆ์‹œํ”ผ

๋ฐฐํฌ ์ „์— ์ž๋™์œผ๋กœ ํ…Œ์ŠคํŠธ๋ฅผ ๋Œ๋ฆฌ์ž. "GitHub Actions ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ์งœ์ค˜. PR์ด ์˜ฌ๋ผ์˜ค๋ฉด Rippletide Eval CLI๋ฅผ ์„ค์น˜ํ•˜๊ณ , 'golden-dataset.json'์— ์žˆ๋Š” 50๊ฐœ ์งˆ๋ฌธ์„ ์—์ด์ „ํŠธ์— ๋˜์ ธ. ํ• ๋ฃจ์‹œ๋„ค์ด์…˜ ์ ์ˆ˜๊ฐ€ 10% ์ด์ƒ์ด๋ฉด ๋ฐฐํฌ๋ฅผ ๋ง‰๋Š” ์Šคํฌ๋ฆฝํŠธ๊นŒ์ง€."

๐Ÿ’ธ ์‚ฌ์ด๋“œ ํ”„๋กœ์ ํŠธ ์•„์ด๋””์–ด

"Vertical Eval Kits": ๋ฒ•๋ฅ , ์˜๋ฃŒ, ๊ธˆ์œต ๋“ฑ ํŠน์ˆ˜ ๋ถ„์•ผ์— ํŠนํ™”๋œ 'ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹(Q&A Set)' ํŒ๋งค. "๋‹น์‹ ์˜ ๋ฒ•๋ฅ  AI๊ฐ€ ํ—›์†Œ๋ฆฌํ•˜๋Š”์ง€ 10๋ถˆ์— ํ™•์ธํ•ด๋ณด์„ธ์š”" ๊ฐ™์€ ์ ‘๊ทผ.

์ด ๊ธ€์ด ์–ด๋• ๋‚˜์š”?

๊ด€๋ จ ๊ธ€

๐Ÿ› ๏ธAI ๋„๊ตฌ๐Ÿค–๋ฐ”์ด๋ธŒ์ฝ”๋”ฉ

8๊ฐœ ๋ฒค์น˜๋งˆํฌ, 33๊ฐœ ์—์ด์ „ํŠธ, 70๊ฐœ+ ๋ชจ๋ธ ๋ถ„์„ ๊ฒฐ๊ณผ โ€” ์ „๋ถ€ ๋Œ๋ฆฌ์ง€ ์•Š์•„๋„ ์ˆœ์œ„ ์œ ์ง€ ๊ฐ€๋Šฅ

8๊ฐœ ๋ฒค์น˜๋งˆํฌ, 33๊ฐœ ์—์ด์ „ํŠธ, 70๊ฐœ+ ๋ชจ๋ธ ๋ถ„์„ ๊ฒฐ๊ณผ โ€” ์ „๋ถ€ ๋Œ๋ฆฌ์ง€ ์•Š์•„๋„ ์ˆœ์œ„ ์œ ์ง€ ๊ฐ€๋Šฅ

์—๋””ํ„ฐ MAX1๋ถ„ ์†Œ์š”
๐Ÿ› ๏ธAI ๋„๊ตฌ๐Ÿค–๋ฐ”์ด๋ธŒ์ฝ”๋”ฉ

Environment Maps๋กœ ์žฅ๊ธฐ ์ž‘์—… AI ์—์ด์ „ํŠธ ์„ฑ๊ณต๋ฅ  ์•ฝ 2๋ฐฐ ํ–ฅ์ƒ

Environment Maps๋กœ ์žฅ๊ธฐ ์ž‘์—… AI ์—์ด์ „ํŠธ ์„ฑ๊ณต๋ฅ  ์•ฝ 2๋ฐฐ ํ–ฅ์ƒ. WebArena 5๊ฐœ ๋„๋ฉ”์ธ์—์„œ ๊ฒ€์ฆ

์—๋””ํ„ฐ MAX1๋ถ„ ์†Œ์š”
๐Ÿ› ๏ธAI ๋„๊ตฌ๐Ÿค–๋ฐ”์ด๋ธŒ์ฝ”๋”ฉ

์ƒˆ ๋ฒค์น˜๋งˆํฌ์—์„œ LLM ์—์ด์ „ํŠธ๊ฐ€ ์ „์ฒด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ๋๊นŒ์ง€ ๋ฒ„ํ‹ด ๋น„์œจ์ด 16%๋ฟ์ด์—ˆ์–ด์š”

์ƒˆ ๋ฒค์น˜๋งˆํฌ์—์„œ LLM ์—์ด์ „ํŠธ๊ฐ€ ์ „์ฒด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ๋๊นŒ์ง€ ๋ฒ„ํ‹ด ๋น„์œจ์ด 16%๋ฟ์ด์—ˆ์–ด์š”

์—๋””ํ„ฐ MAX1๋ถ„ ์†Œ์š”