|잡돌쌤•2026-03-12•2분 소요

IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

OpenAI 연구진이 Instruction Hierarchy 학습용 데이터셋 IH-Challenge를 공개했고, GPT-5-Mini의 계층 지시 준수 강건성을 평균 +10.0% 끌어올렸어요.

시스템·개발자·사용자·도구 지시가 충돌할 때 우선순위를 지키는 능력이 핵심인데, 이게 jailbreak·시스템 프롬프트 추출·에이전트 프롬프트 인젝션 방어의 기반이거든요.

온라인 적대적 예시 생성으로 파인튜닝한 결과, 16개 벤치마크에서 84.1%→94.1%로 개선됐고 unsafe 비율은 6.6%→0.7%로 줄었어요. 일반 안전성 평가의 유용성은 오히려 좋아졌고 성능 저하는 최소였어요.

결국 “무조건 거절”이 아니라 지시 계층을 정확히 해석하는 정렬 학습이 실전 보안 품질을 좌우한다는 신호예요.

이 글이 어땠나요?

관련 글

이 논문은 대회형 수학이나 정형 정리증명 대신, 장기 추론·문헌 근거·반복적 증명 수정이 필요한 연구 문제를 겨냥했어요

이 논문은 대회형 수학이나 정형 정리증명 대신, 장기 추론·문헌 근거·반복적 증명 수정이 필요한 연구 문제를 겨냥했어요.

잡돌쌤2분 소요

기존 SHAP은 컴포넌트 조합을 계속 평가해야 해서, 서드파티 API·불투명 엔드포인트 환경에선 한계가 컸거든요

기존 SHAP은 컴포넌트 조합을 계속 평가해야 해서, 서드파티 API·불투명 엔드포인트 환경에선 한계가 컸거든요.

잡돌쌤2분 소요

arXiv 2605.22883은 A-LEMS라는 측정 프레임워크로 EpG(Energy per Successful Goal)를 제안했어요

arXiv 2605.22883은 A-LEMS라는 측정 프레임워크로 EpG(Energy per Successful Goal)를 제안했어요.

잡돌쌤2분 소요