2026-03-23

논문은 두 좕을 μ œμ•ˆν–ˆμ–΄μš”

πŸ’‘ ν•œμ€„ μš”μ•½|논문은 두 좕을 μ œμ•ˆν–ˆμ–΄μš”.

μž₯κΈ° μž‘μ—…μ—μ„œ ν—€λ§€λ˜ LLM μ—μ΄μ „νŠΈ, β€˜μ„œλΈŒκ³¨+λ§ˆμΌμŠ€ν†€ 보상’ μ‘°ν•©μœΌλ‘œ μ„±λŠ₯이 크게 λ›°μ—ˆμ–΄μš”.

논문은 두 좕을 μ œμ•ˆν–ˆμ–΄μš”. μ‹€ν–‰ 쀑엔 λͺ©ν‘œλ₯Ό μ„œλΈŒκ³¨λ‘œ μͺΌκ°œ μ‹€μ‹œκ°„ κ³„νšν•˜κ³ , ν•™μŠ΅ 땐 MiRA둜 λ§ˆμΌμŠ€ν†€ 기반의 μ΄˜μ΄˜ν•œ 보상을 μ£ΌλŠ” λ°©μ‹μ΄κ±°λ“ μš”. μ›Ή νƒμƒ‰μ²˜λŸΌ 단계가 κΈ΄ κ³Όμ œμ— 맞좘 μ„€κ³„μ˜ˆμš”.

κ²°κ³Όκ°€ κ°•ν–ˆμ–΄μš”. WebArena-Liteμ—μ„œ Gemini 계열은 성곡λ₯ μ΄ μ ˆλŒ€κ°’ κΈ°μ€€ μ•½ 10%p 올랐고, μ˜€ν”ˆλͺ¨λΈ Gemma3-12BλŠ” 6.4%μ—μ„œ 43.0%둜 μƒμŠΉν–ˆμ–΄μš”. GPT-4-Turbo 17.6%, GPT-4o 13.9%, WebRL 38.4%보닀 높은 μˆ˜μΉ˜μ˜ˆμš”.

핡심은 λͺ¨λΈ 크기 κ²½μŸλ³΄λ‹€ κ³„νš ꡬ쑰와 보상 섀계가 μž₯κΈ° μ—μ΄μ „νŠΈ μ„±λŠ₯을 κ°€λ₯Έλ‹€λŠ” μ μ΄μ—μš”.

이 글이 μ–΄λ• λ‚˜μš”?

κ΄€λ ¨ κΈ€

이 논문은 λŒ€νšŒν˜• μˆ˜ν•™μ΄λ‚˜ μ •ν˜• 정리증λͺ… λŒ€μ‹ , μž₯κΈ° μΆ”λ‘ Β·λ¬Έν—Œ 근거·반볡적 증λͺ… μˆ˜μ •μ΄ ν•„μš”ν•œ 연ꡬ 문제λ₯Ό 겨λƒ₯ν–ˆμ–΄μš”

이 논문은 λŒ€νšŒν˜• μˆ˜ν•™μ΄λ‚˜ μ •ν˜• 정리증λͺ… λŒ€μ‹ , μž₯κΈ° μΆ”λ‘ Β·λ¬Έν—Œ 근거·반볡적 증λͺ… μˆ˜μ •μ΄ ν•„μš”ν•œ 연ꡬ 문제λ₯Ό 겨λƒ₯ν–ˆμ–΄μš”.

작돌쌀2λΆ„ μ†Œμš”

κΈ°μ‘΄ SHAP은 μ»΄ν¬λ„ŒνŠΈ 쑰합을 계속 평가해야 ν•΄μ„œ, μ„œλ“œνŒŒν‹° API·뢈투λͺ… μ—”λ“œν¬μΈνŠΈ ν™˜κ²½μ—μ„  ν•œκ³„κ°€ μ»Έκ±°λ“ μš”

κΈ°μ‘΄ SHAP은 μ»΄ν¬λ„ŒνŠΈ 쑰합을 계속 평가해야 ν•΄μ„œ, μ„œλ“œνŒŒν‹° API·뢈투λͺ… μ—”λ“œν¬μΈνŠΈ ν™˜κ²½μ—μ„  ν•œκ³„κ°€ μ»Έκ±°λ“ μš”.

작돌쌀2λΆ„ μ†Œμš”

arXiv 2605.22883은 A-LEMSλΌλŠ” μΈ‘μ • ν”„λ ˆμž„μ›Œν¬λ‘œ EpG(Energy per Successful Goal)λ₯Ό μ œμ•ˆν–ˆμ–΄μš”

arXiv 2605.22883은 A-LEMSλΌλŠ” μΈ‘μ • ν”„λ ˆμž„μ›Œν¬λ‘œ EpG(Energy per Successful Goal)λ₯Ό μ œμ•ˆν–ˆμ–΄μš”.

작돌쌀2λΆ„ μ†Œμš”