📰 디퓨전 언어모델의 추론 약점을 AR 모델 "계획서" 한 장으로 해결했어요

디퓨전 언어모델의 추론 약점을 AR 모델 "계획서" 한 장으로 해결했어요.

핵심 아이디어는 단순해요. 디퓨전 모델이 추론을 못하는 건 모든 위치를 동시에 생성하다 보니 문맥을 쌓아가는 흐름이 없기 때문이거든요. 그래서 GPT 계열 AR 모델이 100토큰짜리 자연어 계획을 먼저 짜고, 그걸 앞에 붙여주는 방식을 썼어요. 별도 학습 없이요.

결과가 꽤 놀라워요. 수학 벤치마크 GSM8K에서 LLaDA-8B 정확도가 75.6%에서 87.2%로 +11.6%p 뛰었고, 코드 벤치마크 HumanEval에서도 +12.8%p가 올랐어요. 같은 계획을 LLaMA에 줬을 때는 +5.7%p밖에 안 오르거든요. 디퓨전 모델이 2~10배 더 많이 이득을 봤어요. 비용은 문제당 0.002달러, 지연은 2초 추가예요.

AR 모델과 디퓨전 모델이 서로의 강점을 나눠 쓰는 하이브리드 접근이 실용적으로 통한다는 걸 보여준 연구예요.

핵심 아이디어는 단순해요

관련 글

이 논문은 대회형 수학이나 정형 정리증명 대신, 장기 추론·문헌 근거·반복적 증명 수정이 필요한 연구 문제를 겨냥했어요

기존 SHAP은 컴포넌트 조합을 계속 평가해야 해서, 서드파티 API·불투명 엔드포인트 환경에선 한계가 컸거든요

arXiv 2605.22883은 A-LEMS라는 측정 프레임워크로 EpG(Energy per Successful Goal)를 제안했어요