2026-04-22

μ—°κ΅¬νŒ€μ€ 이λ₯Ό AEI(Adversarial Environmental Injection)라고 이름 λΆ™μ˜€κ±°λ“ μš”

πŸ’‘ ν•œμ€„ μš”μ•½|μ—°κ΅¬νŒ€μ€ 이λ₯Ό AEI(Adversarial Environmental Injection)라고 이름 λΆ™μ˜€κ±°λ“ μš”.

AI μ—μ΄μ „νŠΈκ°€ "κ°€μ§œ 세계"에 속을 수 μžˆλ‹€λŠ” 연ꡬ가 ACL 2026에 μ±„νƒλμ–΄μš”.

μ—°κ΅¬νŒ€μ€ 이λ₯Ό AEI(Adversarial Environmental Injection)라고 이름 λΆ™μ˜€κ±°λ“ μš”. 검색 κ²°κ³Όλ‚˜ μ™ΈλΆ€ 도ꡬ 좜λ ₯값을 μ‘°μž‘ν•΄μ„œ μ—μ΄μ „νŠΈκ°€ κ±°μ§“ 정보λ₯Ό μ‚¬μ‹€λ‘œ λ°›μ•„λ“€μ΄κ²Œ λ§Œλ“œλŠ” κ³΅κ²©μ΄μ—μš”. 5개 μ΅œμ‹  AI μ—μ΄μ „νŠΈλ₯Ό λŒ€μƒμœΌλ‘œ 11,000회 이상 μ‹€ν—˜ν–ˆλŠ”λ°, 곡격에 λŒ€ν•œ 내성이 생각보닀 훨씬 μ·¨μ•½ν–ˆμ–΄μš”.

특히 ν₯미둜운 건 두 κ°€μ§€ 곡격 μœ ν˜•μ΄ μ„œλ‘œ λ°˜λΉ„λ‘€ν•œλ‹€λŠ” μ μ΄μ—μš”. "ν™˜μƒ(Illusion)" 곡격은 잘λͺ»λœ 정보λ₯Ό λ„“κ²Œ 심어 μ—μ΄μ „νŠΈμ˜ 믿음 자체λ₯Ό λ°”κΎΈκ³ , "미둜(Maze)" 곡격은 ꡬ쑰적 ν•¨μ •μœΌλ‘œ μ—μ΄μ „νŠΈλ₯Ό λ¬΄ν•œ 루프에 λΉ λœ¨λ €μš”. ν•œμͺ½μ— κ°•ν•΄μ§€λ©΄ λ‹€λ₯Έ μͺ½μ— 더 μ·¨μ•½ν•΄μ§€λŠ” νŠΈλ ˆμ΄λ“œμ˜€ν”„κ°€ μ‘΄μž¬ν–ˆμ–΄μš”.

도ꡬλ₯Ό λ―ΏλŠ”λ‹€λŠ” μ „μ œ μžμ²΄κ°€ 곡격 ν‘œλ©΄μ΄ λœλ‹€λŠ” 뜻이라, μ—μ΄μ „νŠΈ λ³΄μ•ˆ μ„€κ³„μ˜ νŒ¨λŸ¬λ‹€μž„μ„ λ°”κΏ”μ•Ό ν•  μ‹œμ μ΄μ—μš”.

이 글이 μ–΄λ• λ‚˜μš”?

κ΄€λ ¨ κΈ€

arXiv에 곡개된 μ—°κ΅¬μ—μ„œ 25,000회 μ΄μƒμ˜ μ—μ΄μ „νŠΈ 싀행을 λΆ„μ„ν–ˆλŠ”λ°, 증거λ₯Ό λ¬΄μ‹œν•˜λŠ” λΉ„μœ¨μ΄ 68%에 λ‹¬ν–ˆκ±°λ“ μš”

arXiv에 곡개된 μ—°κ΅¬μ—μ„œ 25,000회 μ΄μƒμ˜ μ—μ΄μ „νŠΈ 싀행을 λΆ„μ„ν–ˆλŠ”λ°, 증거λ₯Ό λ¬΄μ‹œν•˜λŠ” λΉ„μœ¨μ΄ 68%에 λ‹¬ν–ˆκ±°λ“ μš”.

작돌쌀2λΆ„ μ†Œμš”

λ†€λΌμš΄ 건 크기 λŒ€λΉ„ μ„±λŠ₯μ΄μ—μš”

λ†€λΌμš΄ 건 크기 λŒ€λΉ„ μ„±λŠ₯μ΄μ—μš”.

작돌쌀2λΆ„ μ†Œμš”

κΈ°μ‘΄ λ ˆλ“œνŒ€ 연ꡬ듀은 LLM μ •μ±… μˆ˜μ€€μ˜ μ•½μ λ§Œ κ³΅λž΅ν–ˆλŠ”λ°, ARESλŠ” 핡심 LLMκ³Ό 보상 λͺ¨λΈ(RM)이 λ™μ‹œμ— μ‹€νŒ¨ν•˜λŠ” "μ‹œμŠ€ν…œμ  취약점"을 ν‘œμ μœΌλ‘œ μ‚Όμ•„μš”

κΈ°μ‘΄ λ ˆλ“œνŒ€ 연ꡬ듀은 LLM μ •μ±… μˆ˜μ€€μ˜ μ•½μ λ§Œ κ³΅λž΅ν–ˆλŠ”λ°, ARESλŠ” 핡심 LLMκ³Ό 보상 λͺ¨λΈ(RM)이 λ™μ‹œμ— μ‹€νŒ¨ν•˜λŠ” "μ‹œμŠ€ν…œμ  취약점"을 ν‘œμ μœΌλ‘œ μ‚Όμ•„μš”.

작돌쌀2λΆ„ μ†Œμš”