2026-03-13

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

μ΅œμ‹  μ—°κ΅¬μ—μ„œ AI μ—μ΄μ „νŠΈμ˜ 닀단계 사이버곡격 μˆ˜ν–‰ λŠ₯λ ₯이 μΆ”λ‘  토큰을 늘릴수둝 λšœλ ·ν•˜κ²Œ μ˜¬λΌκ°„λ‹€λŠ” κ²°κ³Όκ°€ λ‚˜μ™”μ–΄μš”.

μ—°κ΅¬νŒ€μ€ 32단계 기업망 곡격, 7단계 μ‚°μ—…μ œμ–΄μ‹œμŠ€ν…œ 곡격 ν™˜κ²½μ—μ„œ 2024λ…„ 8μ›”~2026λ…„ 2μ›” 사이 곡개된 λͺ¨λΈ 7개λ₯Ό λΉ„κ΅ν–ˆκ±°λ“ μš”. 1μ²œλ§Œβ†’1μ–΅ ν† ν°μœΌλ‘œ 늘리면 μ„±λŠ₯이 μ΅œλŒ€ 59% κ°œμ„ λκ³ , 포화 ꡬ간은 κ΄€μΈ‘λ˜μ§€ μ•Šμ•˜μ–΄μš”.

같은 1천만 토큰 κΈ°μ€€μœΌλ‘œλ„ μ„ΈλŒ€κ°€ λ°”λ€”μˆ˜λ‘ μ„±λŠ₯이 μƒμŠΉν–ˆμ–΄μš”. 기업망 μ‹œλ‚˜λ¦¬μ˜€ 평균 μ™„λ£Œ λ‹¨κ³„λŠ” GPT-4o 1.7μ—μ„œ Opus 4.6 9.8둜 올랐고, 졜고 단일 싀행은 32단계 쀑 22단계λ₯Ό λλƒˆμ–΄μš”. μ΄λŠ” 인간 μ „λ¬Έκ°€ 14μ‹œκ°„ μž‘μ—… 쀑 μ•½ 6μ‹œκ°„ λΆ„λŸ‰μ— ν•΄λ‹Ήν•΄μš”.

반면 μ‚°μ—…μ œμ–΄μ‹œμŠ€ν…œμ€ 아직 μ œν•œμ μ΄λΌ μ΅œμ‹  λͺ¨λΈλ„ 평균 1.2~1.4/7단계(μ΅œλŒ€ 3)에 κ·Έμ³€μ–΄μš”. κ·Έλž˜λ„ 계산 μ˜ˆμ‚°κ³Ό λͺ¨λΈ μ„ΈλŒ€κ°€ 곡격 μžλ™ν™” 리슀크λ₯Ό λ™μ‹œμ— ν‚€μš΄λ‹€λŠ” μ‹ ν˜ΈλŠ” λΆ„λͺ…ν•΄ λ³΄μ—¬μš”.

이 글이 μ–΄λ• λ‚˜μš”?

κ΄€λ ¨ κΈ€

AIκ°€ μš°μšΈμ¦Β·λΆˆμ•ˆ 심각도λ₯Ό μžλ™μœΌλ‘œ ν‰κ°€ν•˜λŠ” ν”„λ ˆμž„μ›Œν¬ ADAPTSκ°€ κ³΅κ°œλμ–΄μš”

AIκ°€ μš°μšΈμ¦Β·λΆˆμ•ˆ 심각도λ₯Ό μžλ™μœΌλ‘œ ν‰κ°€ν•˜λŠ” ν”„λ ˆμž„μ›Œν¬ ADAPTSκ°€ κ³΅κ°œλμ–΄μš”. 핡심은 κΈ΄ μž„μƒ 인터뷰λ₯Ό 증상별 μΆ”λ‘  과제둜 λΆ„ν•΄ν•˜λŠ” λ°©μ‹μ΄μ—μš”. LLM μ—¬λŸ¬ 개λ₯Ό ν˜Όν•©ν•œ μ•„ν‚€ν…μ²˜(mixture-of-agent

작돌쌀1λΆ„ μ†Œμš”

νŒ€ λŒ€ν™”μ—μ„œ "λ©˜νƒˆ λͺ¨λΈ 뢈일치"λ₯Ό μžλ™ κ°μ§€ν•˜λŠ” AI ν”„λ ˆμž„μ›Œν¬κ°€ λ‚˜μ™”μ–΄μš”

νŒ€ λŒ€ν™”μ—μ„œ "λ©˜νƒˆ λͺ¨λΈ 뢈일치"λ₯Ό μžλ™ κ°μ§€ν•˜λŠ” AI ν”„λ ˆμž„μ›Œν¬κ°€ λ‚˜μ™”μ–΄μš”. νŒ€μ›λΌλ¦¬ μΌν•˜λ‹€ 보면 μ„œλ‘œ λ‹€λ₯Έ 정보λ₯Ό κ°–κ²Œ λ˜λŠ” κ²½μš°κ°€ λ§Žμ€λ°, 이 뢈일치λ₯Ό λŒ€ν™” μ†μ—μ„œ μ‹€μ‹œκ°„μœΌλ‘œ ν¬μ°©ν•˜λŠ” λ°©λ²•λ‘ μ΄μ—μš”. μ—°κ΅¬νŒ€μ€

작돌쌀1λΆ„ μ†Œμš”

AI μ—μ΄μ „νŠΈκ°€ 창의적으둜 도ꡬλ₯Ό ν™œμš©ν•˜λŠ” λŠ₯λ ₯을 μΈ‘μ •ν•˜λŠ” μƒˆ 벀치마크 'CreativityBench'κ°€ κ³΅κ°œλμ–΄μš”

AI μ—μ΄μ „νŠΈκ°€ 창의적으둜 도ꡬλ₯Ό ν™œμš©ν•˜λŠ” λŠ₯λ ₯을 μΈ‘μ •ν•˜λŠ” μƒˆ 벀치마크 'CreativityBench'κ°€ κ³΅κ°œλμ–΄μš”. μ—°κ΅¬νŒ€μ€ 4,000개 사물과 15만 개 μ΄μƒμ˜ μ–΄ν¬λ˜μŠ€(affordance, 사물이 μ–΄λ–€ μš©λ„λ‘œ

작돌쌀1λΆ„ μ†Œμš”