2026-03-13

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

DIVE๊ฐ€ ํˆด ์‚ฌ์šฉ LLM ํ•™์Šต์—์„œ โ€œ๋ฐ์ดํ„ฐ ์–‘๋ณด๋‹ค ๋‹ค์–‘์„ฑโ€์ด OOD ์ผ๋ฐ˜ํ™”์— ๋” ๊ฐ•ํ•˜๋‹ค๋Š” ๊ฑธ ์ˆ˜์น˜๋กœ ๋ณด์—ฌ์คฌ์–ด์š”.

ํ•ต์‹ฌ์€ ํ•ฉ์„ฑ ์ˆœ์„œ๋ฅผ ๋’ค์ง‘์€ ๊ฑฐ์˜ˆ์š”. ๋จผ์ € ์‹ค์ œ ํˆด์„ ์‹คํ–‰ํ•ด ์ฆ๊ฑฐ(trace)๋ฅผ ๋ชจ์œผ๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋กœ๋ถ€ํ„ฐ ์„ฑ๋ฆฝํ•˜๋Š” ๊ณผ์ œ๋งŒ ์—ญ์œผ๋กœ ๋ฝ‘์•„ ์‹คํ–‰ ๊ฐ€๋Šฅ์„ฑ๊ณผ ๊ฒ€์ฆ ๊ฐ€๋Šฅ์„ฑ์„ ํ™•๋ณดํ–ˆ๊ฑฐ๋“ ์š”.

์ด ๋ฐฉ์‹์œผ๋กœ 5๊ฐœ ๋„๋ฉ”์ธ, 373๊ฐœ ํˆด์„ ์ปค๋ฒ„ํ–ˆ๊ณ , Qwen3-8B๋ฅผ 4.8๋งŒ SFT์™€ 3,200 RL ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ–ˆ์–ด์š”. ๊ทธ ๊ฒฐ๊ณผ 9๊ฐœ OOD ๋ฒค์น˜๋งˆํฌ ํ‰๊ท  +22์ , ๋™๊ธ‰ ์ตœ๊ฐ• 8B ๋ฒ ์ด์Šค๋ผ์ธ ๋Œ€๋น„ +68์ ์„ ๊ธฐ๋กํ–ˆ์–ด์š”.

์‹œ์‚ฌ์ ์€ ๋ถ„๋ช…ํ•ด์š”. ์—์ด์ „ํŠธ ์„ฑ๋Šฅ์„ ์˜ฌ๋ฆฌ๋ ค๋ฉด ๋ฐ์ดํ„ฐ๋ฅผ ๋” ๋ชจ์œผ๊ธฐ๋ณด๋‹ค ํˆด ์กฐํ•ฉ๊ณผ ์‚ฌ์šฉ ํŒจํ„ด์˜ ๊ตฌ์กฐ์  ๋‹ค์–‘์„ฑ์„ ๋จผ์ € ์„ค๊ณ„ํ•ด์•ผ ํ•œ๋‹ค๋Š” ๊ฑฐ์˜ˆ์š”.

์ด ๊ธ€์ด ์–ด๋• ๋‚˜์š”?

๊ด€๋ จ ๊ธ€

์ด ๋…ผ๋ฌธ์€ ๋Œ€ํšŒํ˜• ์ˆ˜ํ•™์ด๋‚˜ ์ •ํ˜• ์ •๋ฆฌ์ฆ๋ช… ๋Œ€์‹ , ์žฅ๊ธฐ ์ถ”๋ก ยท๋ฌธํ—Œ ๊ทผ๊ฑฐยท๋ฐ˜๋ณต์  ์ฆ๋ช… ์ˆ˜์ •์ด ํ•„์š”ํ•œ ์—ฐ๊ตฌ ๋ฌธ์ œ๋ฅผ ๊ฒจ๋ƒฅํ–ˆ์–ด์š”

์ด ๋…ผ๋ฌธ์€ ๋Œ€ํšŒํ˜• ์ˆ˜ํ•™์ด๋‚˜ ์ •ํ˜• ์ •๋ฆฌ์ฆ๋ช… ๋Œ€์‹ , ์žฅ๊ธฐ ์ถ”๋ก ยท๋ฌธํ—Œ ๊ทผ๊ฑฐยท๋ฐ˜๋ณต์  ์ฆ๋ช… ์ˆ˜์ •์ด ํ•„์š”ํ•œ ์—ฐ๊ตฌ ๋ฌธ์ œ๋ฅผ ๊ฒจ๋ƒฅํ–ˆ์–ด์š”.

์žก๋Œ์Œค2๋ถ„ ์†Œ์š”

๊ธฐ์กด SHAP์€ ์ปดํฌ๋„ŒํŠธ ์กฐํ•ฉ์„ ๊ณ„์† ํ‰๊ฐ€ํ•ด์•ผ ํ•ด์„œ, ์„œ๋“œํŒŒํ‹ฐ APIยท๋ถˆํˆฌ๋ช… ์—”๋“œํฌ์ธํŠธ ํ™˜๊ฒฝ์—์„  ํ•œ๊ณ„๊ฐ€ ์ปธ๊ฑฐ๋“ ์š”

๊ธฐ์กด SHAP์€ ์ปดํฌ๋„ŒํŠธ ์กฐํ•ฉ์„ ๊ณ„์† ํ‰๊ฐ€ํ•ด์•ผ ํ•ด์„œ, ์„œ๋“œํŒŒํ‹ฐ APIยท๋ถˆํˆฌ๋ช… ์—”๋“œํฌ์ธํŠธ ํ™˜๊ฒฝ์—์„  ํ•œ๊ณ„๊ฐ€ ์ปธ๊ฑฐ๋“ ์š”.

์žก๋Œ์Œค2๋ถ„ ์†Œ์š”

arXiv 2605.22883์€ A-LEMS๋ผ๋Š” ์ธก์ • ํ”„๋ ˆ์ž„์›Œํฌ๋กœ EpG(Energy per Successful Goal)๋ฅผ ์ œ์•ˆํ–ˆ์–ด์š”

arXiv 2605.22883์€ A-LEMS๋ผ๋Š” ์ธก์ • ํ”„๋ ˆ์ž„์›Œํฌ๋กœ EpG(Energy per Successful Goal)๋ฅผ ์ œ์•ˆํ–ˆ์–ด์š”.

์žก๋Œ์Œค2๋ถ„ ์†Œ์š”