2026-03-12

IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

OpenAI ์—ฐ๊ตฌ์ง„์ด Instruction Hierarchy ํ•™์Šต์šฉ ๋ฐ์ดํ„ฐ์…‹ IH-Challenge๋ฅผ ๊ณต๊ฐœํ–ˆ๊ณ , GPT-5-Mini์˜ ๊ณ„์ธต ์ง€์‹œ ์ค€์ˆ˜ ๊ฐ•๊ฑด์„ฑ์„ ํ‰๊ท  +10.0% ๋Œ์–ด์˜ฌ๋ ธ์–ด์š”.

์‹œ์Šคํ…œยท๊ฐœ๋ฐœ์žยท์‚ฌ์šฉ์žยท๋„๊ตฌ ์ง€์‹œ๊ฐ€ ์ถฉ๋Œํ•  ๋•Œ ์šฐ์„ ์ˆœ์œ„๋ฅผ ์ง€ํ‚ค๋Š” ๋Šฅ๋ ฅ์ด ํ•ต์‹ฌ์ธ๋ฐ, ์ด๊ฒŒ jailbreakยท์‹œ์Šคํ…œ ํ”„๋กฌํ”„ํŠธ ์ถ”์ถœยท์—์ด์ „ํŠธ ํ”„๋กฌํ”„ํŠธ ์ธ์ ์…˜ ๋ฐฉ์–ด์˜ ๊ธฐ๋ฐ˜์ด๊ฑฐ๋“ ์š”.

์˜จ๋ผ์ธ ์ ๋Œ€์  ์˜ˆ์‹œ ์ƒ์„ฑ์œผ๋กœ ํŒŒ์ธํŠœ๋‹ํ•œ ๊ฒฐ๊ณผ, 16๊ฐœ ๋ฒค์น˜๋งˆํฌ์—์„œ 84.1%โ†’94.1%๋กœ ๊ฐœ์„ ๋๊ณ  unsafe ๋น„์œจ์€ 6.6%โ†’0.7%๋กœ ์ค„์—ˆ์–ด์š”. ์ผ๋ฐ˜ ์•ˆ์ „์„ฑ ํ‰๊ฐ€์˜ ์œ ์šฉ์„ฑ์€ ์˜คํžˆ๋ ค ์ข‹์•„์กŒ๊ณ  ์„ฑ๋Šฅ ์ €ํ•˜๋Š” ์ตœ์†Œ์˜€์–ด์š”.

๊ฒฐ๊ตญ โ€œ๋ฌด์กฐ๊ฑด ๊ฑฐ์ ˆโ€์ด ์•„๋‹ˆ๋ผ ์ง€์‹œ ๊ณ„์ธต์„ ์ •ํ™•ํžˆ ํ•ด์„ํ•˜๋Š” ์ •๋ ฌ ํ•™์Šต์ด ์‹ค์ „ ๋ณด์•ˆ ํ’ˆ์งˆ์„ ์ขŒ์šฐํ•œ๋‹ค๋Š” ์‹ ํ˜ธ์˜ˆ์š”.

์ด ๊ธ€์ด ์–ด๋• ๋‚˜์š”?

๊ด€๋ จ ๊ธ€

์ด ๋…ผ๋ฌธ์€ ๋Œ€ํšŒํ˜• ์ˆ˜ํ•™์ด๋‚˜ ์ •ํ˜• ์ •๋ฆฌ์ฆ๋ช… ๋Œ€์‹ , ์žฅ๊ธฐ ์ถ”๋ก ยท๋ฌธํ—Œ ๊ทผ๊ฑฐยท๋ฐ˜๋ณต์  ์ฆ๋ช… ์ˆ˜์ •์ด ํ•„์š”ํ•œ ์—ฐ๊ตฌ ๋ฌธ์ œ๋ฅผ ๊ฒจ๋ƒฅํ–ˆ์–ด์š”

์ด ๋…ผ๋ฌธ์€ ๋Œ€ํšŒํ˜• ์ˆ˜ํ•™์ด๋‚˜ ์ •ํ˜• ์ •๋ฆฌ์ฆ๋ช… ๋Œ€์‹ , ์žฅ๊ธฐ ์ถ”๋ก ยท๋ฌธํ—Œ ๊ทผ๊ฑฐยท๋ฐ˜๋ณต์  ์ฆ๋ช… ์ˆ˜์ •์ด ํ•„์š”ํ•œ ์—ฐ๊ตฌ ๋ฌธ์ œ๋ฅผ ๊ฒจ๋ƒฅํ–ˆ์–ด์š”.

์žก๋Œ์Œค2๋ถ„ ์†Œ์š”

๊ธฐ์กด SHAP์€ ์ปดํฌ๋„ŒํŠธ ์กฐํ•ฉ์„ ๊ณ„์† ํ‰๊ฐ€ํ•ด์•ผ ํ•ด์„œ, ์„œ๋“œํŒŒํ‹ฐ APIยท๋ถˆํˆฌ๋ช… ์—”๋“œํฌ์ธํŠธ ํ™˜๊ฒฝ์—์„  ํ•œ๊ณ„๊ฐ€ ์ปธ๊ฑฐ๋“ ์š”

๊ธฐ์กด SHAP์€ ์ปดํฌ๋„ŒํŠธ ์กฐํ•ฉ์„ ๊ณ„์† ํ‰๊ฐ€ํ•ด์•ผ ํ•ด์„œ, ์„œ๋“œํŒŒํ‹ฐ APIยท๋ถˆํˆฌ๋ช… ์—”๋“œํฌ์ธํŠธ ํ™˜๊ฒฝ์—์„  ํ•œ๊ณ„๊ฐ€ ์ปธ๊ฑฐ๋“ ์š”.

์žก๋Œ์Œค2๋ถ„ ์†Œ์š”

arXiv 2605.22883์€ A-LEMS๋ผ๋Š” ์ธก์ • ํ”„๋ ˆ์ž„์›Œํฌ๋กœ EpG(Energy per Successful Goal)๋ฅผ ์ œ์•ˆํ–ˆ์–ด์š”

arXiv 2605.22883์€ A-LEMS๋ผ๋Š” ์ธก์ • ํ”„๋ ˆ์ž„์›Œํฌ๋กœ EpG(Energy per Successful Goal)๋ฅผ ์ œ์•ˆํ–ˆ์–ด์š”.

์žก๋Œ์Œค2๋ถ„ ์†Œ์š”