2026-03-12

IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

OpenAI 연ꡬ진이 Instruction Hierarchy ν•™μŠ΅μš© 데이터셋 IH-Challengeλ₯Ό κ³΅κ°œν–ˆκ³ , GPT-5-Mini의 계측 μ§€μ‹œ μ€€μˆ˜ 강건성을 평균 +10.0% λŒμ–΄μ˜¬λ Έμ–΄μš”.

μ‹œμŠ€ν…œΒ·κ°œλ°œμžΒ·μ‚¬μš©μžΒ·λ„κ΅¬ μ§€μ‹œκ°€ μΆ©λŒν•  λ•Œ μš°μ„ μˆœμœ„λ₯Ό μ§€ν‚€λŠ” λŠ₯λ ₯이 핡심인데, 이게 jailbreakΒ·μ‹œμŠ€ν…œ ν”„λ‘¬ν”„νŠΈ μΆ”μΆœΒ·μ—μ΄μ „νŠΈ ν”„λ‘¬ν”„νŠΈ μΈμ μ…˜ λ°©μ–΄μ˜ κΈ°λ°˜μ΄κ±°λ“ μš”.

온라인 μ λŒ€μ  μ˜ˆμ‹œ μƒμ„±μœΌλ‘œ νŒŒμΈνŠœλ‹ν•œ κ²°κ³Ό, 16개 λ²€μΉ˜λ§ˆν¬μ—μ„œ 84.1%β†’94.1%둜 κ°œμ„ λκ³  unsafe λΉ„μœ¨μ€ 6.6%β†’0.7%둜 μ€„μ—ˆμ–΄μš”. 일반 μ•ˆμ „μ„± ν‰κ°€μ˜ μœ μš©μ„±μ€ 였히렀 μ’‹μ•„μ‘Œκ³  μ„±λŠ₯ μ €ν•˜λŠ” μ΅œμ†Œμ˜€μ–΄μš”.

κ²°κ΅­ β€œλ¬΄μ‘°κ±΄ κ±°μ ˆβ€μ΄ μ•„λ‹ˆλΌ μ§€μ‹œ 계측을 μ •ν™•νžˆ ν•΄μ„ν•˜λŠ” μ •λ ¬ ν•™μŠ΅μ΄ μ‹€μ „ λ³΄μ•ˆ ν’ˆμ§ˆμ„ μ’Œμš°ν•œλ‹€λŠ” μ‹ ν˜Έμ˜ˆμš”.

이 글이 μ–΄λ• λ‚˜μš”?

κ΄€λ ¨ κΈ€

AIκ°€ μš°μšΈμ¦Β·λΆˆμ•ˆ 심각도λ₯Ό μžλ™μœΌλ‘œ ν‰κ°€ν•˜λŠ” ν”„λ ˆμž„μ›Œν¬ ADAPTSκ°€ κ³΅κ°œλμ–΄μš”

AIκ°€ μš°μšΈμ¦Β·λΆˆμ•ˆ 심각도λ₯Ό μžλ™μœΌλ‘œ ν‰κ°€ν•˜λŠ” ν”„λ ˆμž„μ›Œν¬ ADAPTSκ°€ κ³΅κ°œλμ–΄μš”. 핡심은 κΈ΄ μž„μƒ 인터뷰λ₯Ό 증상별 μΆ”λ‘  과제둜 λΆ„ν•΄ν•˜λŠ” λ°©μ‹μ΄μ—μš”. LLM μ—¬λŸ¬ 개λ₯Ό ν˜Όν•©ν•œ μ•„ν‚€ν…μ²˜(mixture-of-agent

작돌쌀1λΆ„ μ†Œμš”

νŒ€ λŒ€ν™”μ—μ„œ "λ©˜νƒˆ λͺ¨λΈ 뢈일치"λ₯Ό μžλ™ κ°μ§€ν•˜λŠ” AI ν”„λ ˆμž„μ›Œν¬κ°€ λ‚˜μ™”μ–΄μš”

νŒ€ λŒ€ν™”μ—μ„œ "λ©˜νƒˆ λͺ¨λΈ 뢈일치"λ₯Ό μžλ™ κ°μ§€ν•˜λŠ” AI ν”„λ ˆμž„μ›Œν¬κ°€ λ‚˜μ™”μ–΄μš”. νŒ€μ›λΌλ¦¬ μΌν•˜λ‹€ 보면 μ„œλ‘œ λ‹€λ₯Έ 정보λ₯Ό κ°–κ²Œ λ˜λŠ” κ²½μš°κ°€ λ§Žμ€λ°, 이 뢈일치λ₯Ό λŒ€ν™” μ†μ—μ„œ μ‹€μ‹œκ°„μœΌλ‘œ ν¬μ°©ν•˜λŠ” λ°©λ²•λ‘ μ΄μ—μš”. μ—°κ΅¬νŒ€μ€

작돌쌀1λΆ„ μ†Œμš”

AI μ—μ΄μ „νŠΈκ°€ 창의적으둜 도ꡬλ₯Ό ν™œμš©ν•˜λŠ” λŠ₯λ ₯을 μΈ‘μ •ν•˜λŠ” μƒˆ 벀치마크 'CreativityBench'κ°€ κ³΅κ°œλμ–΄μš”

AI μ—μ΄μ „νŠΈκ°€ 창의적으둜 도ꡬλ₯Ό ν™œμš©ν•˜λŠ” λŠ₯λ ₯을 μΈ‘μ •ν•˜λŠ” μƒˆ 벀치마크 'CreativityBench'κ°€ κ³΅κ°œλμ–΄μš”. μ—°κ΅¬νŒ€μ€ 4,000개 사물과 15만 개 μ΄μƒμ˜ μ–΄ν¬λ˜μŠ€(affordance, 사물이 μ–΄λ–€ μš©λ„λ‘œ

작돌쌀1λΆ„ μ†Œμš”