2026-04-22

핡심은 "사후 μ•ˆμ „μž₯치(post-execution safeguard)"μ˜ˆμš”

πŸ’‘ ν•œμ€„ μš”μ•½|핡심은 "사후 μ•ˆμ „μž₯치(post-execution safeguard)"μ˜ˆμš”.

AI μ—μ΄μ „νŠΈκ°€ μ‹€μˆ˜λ‚˜ μ˜€μž‘λ™μœΌλ‘œ 컴퓨터에 ν•΄λ₯Ό 끼쳀을 λ•Œ, μ–΄λ–»κ²Œ "회볡"ν• μ§€ μ—°κ΅¬ν•œ 논문이 λ‚˜μ™”μ–΄μš”.

핡심은 "사후 μ•ˆμ „μž₯치(post-execution safeguard)"μ˜ˆμš”. κΈ°μ‘΄ AI μ•ˆμ „ μ—°κ΅¬λŠ” 주둜 λ‚˜μœ 행동을 사전에 λ§‰λŠ” 데 μ§‘μ€‘ν–ˆλŠ”λ°, 이 μ—°κ΅¬λŠ” 이미 μΌμ–΄λ‚œ ν”Όν•΄λ₯Ό μ‚¬λžŒμ˜ μ˜λ„μ— 맞게 λ˜λŒλ¦¬λŠ” 문제λ₯Ό λ‹€λ€„μš”. μ—°κ΅¬νŒ€μ€ 1,150쌍의 비ꡐ νŒλ‹¨ 데이터셋을 λ§Œλ“€μ–΄μ„œ, μ–΄λ–€ 볡ꡬ 방식을 μ‚¬λžŒλ“€μ΄ μ„ ν˜Έν•˜λŠ”μ§€ λΆ„μ„ν–ˆκ±°λ“ μš”.

ν₯미둜운 λ°œκ²¬μ€, μ‚¬λžŒλ“€μ΄ 포괄적인 μž₯κΈ° 볡ꡬ보닀 μ‹€μš©μ μ΄κ³  νƒ€κ²Ÿν˜• 볡ꡬλ₯Ό 더 μ„ ν˜Έν•œλ‹€λŠ” κ±°μ˜ˆμš”. 이λ₯Ό λ°”νƒ•μœΌλ‘œ 보상 λͺ¨λΈμ„ λ§Œλ“€κ³ , 50개의 컴퓨터 μ‚¬μš© νƒœμŠ€ν¬λ‘œ κ΅¬μ„±λœ BackBench 벀치마크둜 ν‰κ°€ν–ˆμ„ λ•Œ, κΈ°μ‘΄ 방식보닀 볡ꡬ ν’ˆμ§ˆμ΄ λ†’μ•„μ‘Œμ–΄μš”.

AIκ°€ μ‹€μ œ 컴퓨터λ₯Ό μ‘°μž‘ν•˜λŠ” μ‹œλŒ€, "λ§‰λŠ” 것"만큼 "μˆ˜μŠ΅ν•˜λŠ” 것"도 μ€‘μš”ν•΄μ§„λ‹€λŠ” κ±Έ λ³΄μ—¬μ£ΌλŠ” μ—°κ΅¬μ˜ˆμš”.

이 글이 μ–΄λ• λ‚˜μš”?

κ΄€λ ¨ κΈ€

arXiv에 곡개된 μ—°κ΅¬μ—μ„œ 25,000회 μ΄μƒμ˜ μ—μ΄μ „νŠΈ 싀행을 λΆ„μ„ν–ˆλŠ”λ°, 증거λ₯Ό λ¬΄μ‹œν•˜λŠ” λΉ„μœ¨μ΄ 68%에 λ‹¬ν–ˆκ±°λ“ μš”

arXiv에 곡개된 μ—°κ΅¬μ—μ„œ 25,000회 μ΄μƒμ˜ μ—μ΄μ „νŠΈ 싀행을 λΆ„μ„ν–ˆλŠ”λ°, 증거λ₯Ό λ¬΄μ‹œν•˜λŠ” λΉ„μœ¨μ΄ 68%에 λ‹¬ν–ˆκ±°λ“ μš”.

작돌쌀2λΆ„ μ†Œμš”

λ†€λΌμš΄ 건 크기 λŒ€λΉ„ μ„±λŠ₯μ΄μ—μš”

λ†€λΌμš΄ 건 크기 λŒ€λΉ„ μ„±λŠ₯μ΄μ—μš”.

작돌쌀2λΆ„ μ†Œμš”

κΈ°μ‘΄ λ ˆλ“œνŒ€ 연ꡬ듀은 LLM μ •μ±… μˆ˜μ€€μ˜ μ•½μ λ§Œ κ³΅λž΅ν–ˆλŠ”λ°, ARESλŠ” 핡심 LLMκ³Ό 보상 λͺ¨λΈ(RM)이 λ™μ‹œμ— μ‹€νŒ¨ν•˜λŠ” "μ‹œμŠ€ν…œμ  취약점"을 ν‘œμ μœΌλ‘œ μ‚Όμ•„μš”

κΈ°μ‘΄ λ ˆλ“œνŒ€ 연ꡬ듀은 LLM μ •μ±… μˆ˜μ€€μ˜ μ•½μ λ§Œ κ³΅λž΅ν–ˆλŠ”λ°, ARESλŠ” 핡심 LLMκ³Ό 보상 λͺ¨λΈ(RM)이 λ™μ‹œμ— μ‹€νŒ¨ν•˜λŠ” "μ‹œμŠ€ν…œμ  취약점"을 ν‘œμ μœΌλ‘œ μ‚Όμ•„μš”.

작돌쌀2λΆ„ μ†Œμš”