2026-03-12

IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

OpenAI ์—ฐ๊ตฌ์ง„์ด Instruction Hierarchy ํ•™์Šต์šฉ ๋ฐ์ดํ„ฐ์…‹ IH-Challenge๋ฅผ ๊ณต๊ฐœํ–ˆ๊ณ , GPT-5-Mini์˜ ๊ณ„์ธต ์ง€์‹œ ์ค€์ˆ˜ ๊ฐ•๊ฑด์„ฑ์„ ํ‰๊ท  +10.0% ๋Œ์–ด์˜ฌ๋ ธ์–ด์š”.

์‹œ์Šคํ…œยท๊ฐœ๋ฐœ์žยท์‚ฌ์šฉ์žยท๋„๊ตฌ ์ง€์‹œ๊ฐ€ ์ถฉ๋Œํ•  ๋•Œ ์šฐ์„ ์ˆœ์œ„๋ฅผ ์ง€ํ‚ค๋Š” ๋Šฅ๋ ฅ์ด ํ•ต์‹ฌ์ธ๋ฐ, ์ด๊ฒŒ jailbreakยท์‹œ์Šคํ…œ ํ”„๋กฌํ”„ํŠธ ์ถ”์ถœยท์—์ด์ „ํŠธ ํ”„๋กฌํ”„ํŠธ ์ธ์ ์…˜ ๋ฐฉ์–ด์˜ ๊ธฐ๋ฐ˜์ด๊ฑฐ๋“ ์š”.

์˜จ๋ผ์ธ ์ ๋Œ€์  ์˜ˆ์‹œ ์ƒ์„ฑ์œผ๋กœ ํŒŒ์ธํŠœ๋‹ํ•œ ๊ฒฐ๊ณผ, 16๊ฐœ ๋ฒค์น˜๋งˆํฌ์—์„œ 84.1%โ†’94.1%๋กœ ๊ฐœ์„ ๋๊ณ  unsafe ๋น„์œจ์€ 6.6%โ†’0.7%๋กœ ์ค„์—ˆ์–ด์š”. ์ผ๋ฐ˜ ์•ˆ์ „์„ฑ ํ‰๊ฐ€์˜ ์œ ์šฉ์„ฑ์€ ์˜คํžˆ๋ ค ์ข‹์•„์กŒ๊ณ  ์„ฑ๋Šฅ ์ €ํ•˜๋Š” ์ตœ์†Œ์˜€์–ด์š”.

๊ฒฐ๊ตญ โ€œ๋ฌด์กฐ๊ฑด ๊ฑฐ์ ˆโ€์ด ์•„๋‹ˆ๋ผ ์ง€์‹œ ๊ณ„์ธต์„ ์ •ํ™•ํžˆ ํ•ด์„ํ•˜๋Š” ์ •๋ ฌ ํ•™์Šต์ด ์‹ค์ „ ๋ณด์•ˆ ํ’ˆ์งˆ์„ ์ขŒ์šฐํ•œ๋‹ค๋Š” ์‹ ํ˜ธ์˜ˆ์š”.

์ด ๊ธ€์ด ์–ด๋• ๋‚˜์š”?

๊ด€๋ จ ๊ธ€

arXiv 2603.12813์—์„œ LLM ๊ธฐ๋ฐ˜ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ๋กœ ํ”Œ๋กœ์šฐ์‹œํŠธ ์„ค๊ณ„๋ฅผ ์ž๋™ํ™”ํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๊ณต๊ฐœํ–ˆ๊ฑฐ๋“ ์š”

arXiv 2603.12813์—์„œ LLM ๊ธฐ๋ฐ˜ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ๋กœ ํ”Œ๋กœ์šฐ์‹œํŠธ ์„ค๊ณ„๋ฅผ ์ž๋™ํ™”ํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๊ณต๊ฐœํ–ˆ๊ฑฐ๋“ ์š”.

์žก๋Œ์Œค2๋ถ„ ์†Œ์š”

์งง์€ ํˆด ํ˜ธ์ถœ์€ ์ž˜ํ•˜์ง€๋งŒ ์ƒํƒœยท์‚ฐ์ถœ๋ฌผ์ด ์Œ“์ด๋Š” ์ž‘์—…์—์„œ ๋ฌด๋„ˆ์ง€๋Š” ํ•œ๊ณ„๋ฅผ ๊ฒจ๋ƒฅํ•œ ๊ตฌ์กฐ์˜ˆ์š”

์งง์€ ํˆด ํ˜ธ์ถœ์€ ์ž˜ํ•˜์ง€๋งŒ ์ƒํƒœยท์‚ฐ์ถœ๋ฌผ์ด ์Œ“์ด๋Š” ์ž‘์—…์—์„œ ๋ฌด๋„ˆ์ง€๋Š” ํ•œ๊ณ„๋ฅผ ๊ฒจ๋ƒฅํ•œ ๊ตฌ์กฐ์˜ˆ์š”.

์žก๋Œ์Œค2๋ถ„ ์†Œ์š”

๊ธฐํšยท๋ฆฌ๋ทฐยท๋ฐฐํฌยทQA๋ฅผ 8๊ฐœ ๋ชจ๋“œ๋กœ ๋ถ„๋ฆฌํ•ด ๊ฐœ๋ฐœ ์‹ ๋ขฐ๋„๋ฅผ ๋†’์ด๋ ค๋Š” ์ ‘๊ทผ์ด๊ฑฐ๋“ ์š”

๊ธฐํšยท๋ฆฌ๋ทฐยท๋ฐฐํฌยทQA๋ฅผ 8๊ฐœ ๋ชจ๋“œ๋กœ ๋ถ„๋ฆฌํ•ด ๊ฐœ๋ฐœ ์‹ ๋ขฐ๋„๋ฅผ ๋†’์ด๋ ค๋Š” ์ ‘๊ทผ์ด๊ฑฐ๋“ ์š”.

์žก๋Œ์Œค2๋ถ„ ์†Œ์š”