LLMμ΄ κ΄κ³μλ μ¬νμ λ§₯λ½ μ 보μ νΈν₯λλ λ¬Έμ λ₯Ό 84% μ€μ΄λ λ°©λ²μ΄ λμμ΄μ.
λ―Έκ΅ κ΅μ€ μμ κΈ°λ‘ λ°μ΄ν°μ (NCTE)μ νμ©ν΄ 7κ° μ΅μ λͺ¨λΈμ ν μ€νΈνλλ°, κ΅μ¬ κ²½λ ₯Β·νλ ₯Β·μΈμ’ κ°μ 무κ΄ν μ 보λ₯Ό λ£μΌλ©΄ 7μ λ§μ μ²λμμ μ΅λ 1.48μ μ΄λ μμΈ‘κ°μ΄ λ°λμκ±°λ μ. ν₯λ―Έλ‘μ΄ κ±΄ λͺ¨λΈ ν¬κΈ°κ° ν΄μλ‘ μ νλλ λμλ μ΄λ° νΈν₯μ λ λ―Όκ°ν κ²½μ°κ° μμλ€λ κ±°μμ.
μ°κ΅¬νμ΄ μ μν Debiasing-DPOλ λ§₯λ½ μμ΄ μμ±ν μ€λ¦½ μΆλ‘ κ³Ό, λΆνμν λ§₯λ½μ΄ μμΈ νΈν₯ μΆλ‘ μ μμΌλ‘ λ¬Άμ΄ νλ ¨μν€λ λ°©μμ΄μμ. Llamaμ Qwen 3BΒ·7B λͺ¨λΈμ μ μ©νλλ νΈν₯μ νκ· 84% κ°μ, μμΈ‘ μ νλλ 52% ν₯μλμ΄μ.
λͺ¨λΈμ ν¬κ² λ§λ λ€κ³ νΈν₯μ΄ μμ°μ€λ½κ² ν΄κ²°λμ§ μλλ€λ κ±Έ μ€μ¦νλ€λ μ μμ, κ³ μν μμ¬κ²°μ μ LLMμ μΈ λ λ³λμ λλ°μ΄μ΄μ± νλ ¨μ΄ νμνλ€λ κ²½κ³ λ‘ μ½νμ.