2026-04-22

κΈ°μ‘΄ λ ˆλ“œνŒ€ 연ꡬ듀은 LLM μ •μ±… μˆ˜μ€€μ˜ μ•½μ λ§Œ κ³΅λž΅ν–ˆλŠ”λ°, ARESλŠ” 핡심 LLMκ³Ό 보상 λͺ¨λΈ(RM)이 λ™μ‹œμ— μ‹€νŒ¨ν•˜λŠ” "μ‹œμŠ€ν…œμ  취약점"을 ν‘œμ μœΌλ‘œ μ‚Όμ•„μš”

πŸ’‘ ν•œμ€„ μš”μ•½|κΈ°μ‘΄ λ ˆλ“œνŒ€ 연ꡬ듀은 LLM μ •μ±… μˆ˜μ€€μ˜ μ•½μ λ§Œ κ³΅λž΅ν–ˆλŠ”λ°, ARESλŠ” 핡심 LLMκ³Ό 보상 λͺ¨λΈ(RM)이 λ™μ‹œμ— μ‹€νŒ¨ν•˜λŠ” "μ‹œμŠ€ν…œμ  취약점"을 ν‘œμ μœΌλ‘œ μ‚Όμ•„μš”.

RLHF의 μˆ¨κ²¨μ§„ 취약점을 λ™μ‹œμ— μž‘λŠ” ν”„λ ˆμž„μ›Œν¬ ARESκ°€ ACL 2026에 μ±„νƒλμ–΄μš”.

κΈ°μ‘΄ λ ˆλ“œνŒ€ 연ꡬ듀은 LLM μ •μ±… μˆ˜μ€€μ˜ μ•½μ λ§Œ κ³΅λž΅ν–ˆλŠ”λ°, ARESλŠ” 핡심 LLMκ³Ό 보상 λͺ¨λΈ(RM)이 λ™μ‹œμ— μ‹€νŒ¨ν•˜λŠ” "μ‹œμŠ€ν…œμ  취약점"을 ν‘œμ μœΌλ‘œ μ‚Όμ•„μš”. ν† ν”½, 페λ₯΄μ†Œλ‚˜, μ „μˆ , λͺ©ν‘œλ₯Ό μ‘°ν•©ν•΄ 의미적으둜 μžμ—°μŠ€λŸ¬μš΄ μ λŒ€μ  ν”„λ‘¬ν”„νŠΈλ₯Ό μžλ™ μƒμ„±ν•˜λŠ” 'Safety Mentor'κ°€ ν•΅μ‹¬μ΄μ—μš”.

수리 과정도 2λ‹¨κ³„λ‘œ λ‚˜λ‰˜μ–΄μš”. λ¨Όμ € RM을 νŒŒμΈνŠœλ‹ν•΄μ„œ μœ ν•΄ μ½˜ν…μΈ  감지λ ₯을 높이고, κ°œμ„ λœ RM으둜 핡심 λͺ¨λΈμ„ μ΅œμ ν™”ν•˜λŠ” λ°©μ‹μ΄κ±°λ“ μš”. μ—¬λŸ¬ μ•ˆμ „μ„± λ²€μΉ˜λ§ˆν¬μ—μ„œ λͺ¨λΈ λŠ₯λ ₯을 μœ μ§€ν•˜λ©΄μ„œλ„ μ•ˆμ „ 강건성이 크게 ν–₯상됐닀고 ν•΄μš”.

보상 λͺ¨λΈμ΄ 뚫리면 RLHF 전체가 λ¬΄λ„ˆμ§„λ‹€λŠ” 문제λ₯Ό μ •λ©΄μœΌλ‘œ 닀룬 연ꡬ라, AI μ•ˆμ „ μ •λ ¬ 방식에 μƒˆλ‘œμš΄ 기쀀을 μ œμ‹œν•  것 κ°™μ•„μš”.

이 글이 μ–΄λ• λ‚˜μš”?

κ΄€λ ¨ κΈ€

이 논문은 λŒ€νšŒν˜• μˆ˜ν•™μ΄λ‚˜ μ •ν˜• 정리증λͺ… λŒ€μ‹ , μž₯κΈ° μΆ”λ‘ Β·λ¬Έν—Œ 근거·반볡적 증λͺ… μˆ˜μ •μ΄ ν•„μš”ν•œ 연ꡬ 문제λ₯Ό 겨λƒ₯ν–ˆμ–΄μš”

이 논문은 λŒ€νšŒν˜• μˆ˜ν•™μ΄λ‚˜ μ •ν˜• 정리증λͺ… λŒ€μ‹ , μž₯κΈ° μΆ”λ‘ Β·λ¬Έν—Œ 근거·반볡적 증λͺ… μˆ˜μ •μ΄ ν•„μš”ν•œ 연ꡬ 문제λ₯Ό 겨λƒ₯ν–ˆμ–΄μš”.

작돌쌀2λΆ„ μ†Œμš”

κΈ°μ‘΄ SHAP은 μ»΄ν¬λ„ŒνŠΈ 쑰합을 계속 평가해야 ν•΄μ„œ, μ„œλ“œνŒŒν‹° API·뢈투λͺ… μ—”λ“œν¬μΈνŠΈ ν™˜κ²½μ—μ„  ν•œκ³„κ°€ μ»Έκ±°λ“ μš”

κΈ°μ‘΄ SHAP은 μ»΄ν¬λ„ŒνŠΈ 쑰합을 계속 평가해야 ν•΄μ„œ, μ„œλ“œνŒŒν‹° API·뢈투λͺ… μ—”λ“œν¬μΈνŠΈ ν™˜κ²½μ—μ„  ν•œκ³„κ°€ μ»Έκ±°λ“ μš”.

작돌쌀2λΆ„ μ†Œμš”

arXiv 2605.22883은 A-LEMSλΌλŠ” μΈ‘μ • ν”„λ ˆμž„μ›Œν¬λ‘œ EpG(Energy per Successful Goal)λ₯Ό μ œμ•ˆν–ˆμ–΄μš”

arXiv 2605.22883은 A-LEMSλΌλŠ” μΈ‘μ • ν”„λ ˆμž„μ›Œν¬λ‘œ EpG(Energy per Successful Goal)λ₯Ό μ œμ•ˆν–ˆμ–΄μš”.

작돌쌀2λΆ„ μ†Œμš”