2026-03-13

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

μ΅œμ‹  μ—°κ΅¬μ—μ„œ AI μ—μ΄μ „νŠΈμ˜ 닀단계 사이버곡격 μˆ˜ν–‰ λŠ₯λ ₯이 μΆ”λ‘  토큰을 늘릴수둝 λšœλ ·ν•˜κ²Œ μ˜¬λΌκ°„λ‹€λŠ” κ²°κ³Όκ°€ λ‚˜μ™”μ–΄μš”.

μ—°κ΅¬νŒ€μ€ 32단계 기업망 곡격, 7단계 μ‚°μ—…μ œμ–΄μ‹œμŠ€ν…œ 곡격 ν™˜κ²½μ—μ„œ 2024λ…„ 8μ›”~2026λ…„ 2μ›” 사이 곡개된 λͺ¨λΈ 7개λ₯Ό λΉ„κ΅ν–ˆκ±°λ“ μš”. 1μ²œλ§Œβ†’1μ–΅ ν† ν°μœΌλ‘œ 늘리면 μ„±λŠ₯이 μ΅œλŒ€ 59% κ°œμ„ λκ³ , 포화 ꡬ간은 κ΄€μΈ‘λ˜μ§€ μ•Šμ•˜μ–΄μš”.

같은 1천만 토큰 κΈ°μ€€μœΌλ‘œλ„ μ„ΈλŒ€κ°€ λ°”λ€”μˆ˜λ‘ μ„±λŠ₯이 μƒμŠΉν–ˆμ–΄μš”. 기업망 μ‹œλ‚˜λ¦¬μ˜€ 평균 μ™„λ£Œ λ‹¨κ³„λŠ” GPT-4o 1.7μ—μ„œ Opus 4.6 9.8둜 올랐고, 졜고 단일 싀행은 32단계 쀑 22단계λ₯Ό λλƒˆμ–΄μš”. μ΄λŠ” 인간 μ „λ¬Έκ°€ 14μ‹œκ°„ μž‘μ—… 쀑 μ•½ 6μ‹œκ°„ λΆ„λŸ‰μ— ν•΄λ‹Ήν•΄μš”.

반면 μ‚°μ—…μ œμ–΄μ‹œμŠ€ν…œμ€ 아직 μ œν•œμ μ΄λΌ μ΅œμ‹  λͺ¨λΈλ„ 평균 1.2~1.4/7단계(μ΅œλŒ€ 3)에 κ·Έμ³€μ–΄μš”. κ·Έλž˜λ„ 계산 μ˜ˆμ‚°κ³Ό λͺ¨λΈ μ„ΈλŒ€κ°€ 곡격 μžλ™ν™” 리슀크λ₯Ό λ™μ‹œμ— ν‚€μš΄λ‹€λŠ” μ‹ ν˜ΈλŠ” λΆ„λͺ…ν•΄ λ³΄μ—¬μš”.

이 글이 μ–΄λ• λ‚˜μš”?

κ΄€λ ¨ κΈ€

arXiv 2603.12813μ—μ„œ LLM 기반 λ©€ν‹°μ—μ΄μ „νŠΈλ‘œ ν”Œλ‘œμš°μ‹œνŠΈ 섀계λ₯Ό μžλ™ν™”ν•˜λŠ” ν”„λ ˆμž„μ›Œν¬λ₯Ό κ³΅κ°œν–ˆκ±°λ“ μš”

arXiv 2603.12813μ—μ„œ LLM 기반 λ©€ν‹°μ—μ΄μ „νŠΈλ‘œ ν”Œλ‘œμš°μ‹œνŠΈ 섀계λ₯Ό μžλ™ν™”ν•˜λŠ” ν”„λ ˆμž„μ›Œν¬λ₯Ό κ³΅κ°œν–ˆκ±°λ“ μš”.

작돌쌀2λΆ„ μ†Œμš”

짧은 툴 ν˜ΈμΆœμ€ μž˜ν•˜μ§€λ§Œ μƒνƒœΒ·μ‚°μΆœλ¬Όμ΄ μŒ“μ΄λŠ” μž‘μ—…μ—μ„œ λ¬΄λ„ˆμ§€λŠ” ν•œκ³„λ₯Ό 겨λƒ₯ν•œ κ΅¬μ‘°μ˜ˆμš”

짧은 툴 ν˜ΈμΆœμ€ μž˜ν•˜μ§€λ§Œ μƒνƒœΒ·μ‚°μΆœλ¬Όμ΄ μŒ“μ΄λŠ” μž‘μ—…μ—μ„œ λ¬΄λ„ˆμ§€λŠ” ν•œκ³„λ₯Ό 겨λƒ₯ν•œ κ΅¬μ‘°μ˜ˆμš”.

작돌쌀2λΆ„ μ†Œμš”

기획·리뷰·배포·QAλ₯Ό 8개 λͺ¨λ“œλ‘œ 뢄리해 개발 신뒰도λ₯Ό λ†’μ΄λ €λŠ” μ ‘κ·Όμ΄κ±°λ“ μš”

기획·리뷰·배포·QAλ₯Ό 8개 λͺ¨λ“œλ‘œ 뢄리해 개발 신뒰도λ₯Ό λ†’μ΄λ €λŠ” μ ‘κ·Όμ΄κ±°λ“ μš”.

작돌쌀2λΆ„ μ†Œμš”