2026-03-17

핡심 μ•„μ΄λ””μ–΄λŠ” λ‹¨μˆœν•΄μš”

πŸ’‘ ν•œμ€„ μš”μ•½|핡심 μ•„μ΄λ””μ–΄λŠ” λ‹¨μˆœν•΄μš”.

디퓨전 μ–Έμ–΄λͺ¨λΈμ˜ μΆ”λ‘  약점을 AR λͺ¨λΈ "κ³„νšμ„œ" ν•œ μž₯으둜 ν•΄κ²°ν–ˆμ–΄μš”.

핡심 μ•„μ΄λ””μ–΄λŠ” λ‹¨μˆœν•΄μš”. 디퓨전 λͺ¨λΈμ΄ 좔둠을 λͺ»ν•˜λŠ” 건 λͺ¨λ“  μœ„μΉ˜λ₯Ό λ™μ‹œμ— μƒμ„±ν•˜λ‹€ λ³΄λ‹ˆ λ¬Έλ§₯을 μŒ“μ•„κ°€λŠ” 흐름이 μ—†κΈ° λ•Œλ¬Έμ΄κ±°λ“ μš”. κ·Έλž˜μ„œ GPT 계열 AR λͺ¨λΈμ΄ 100ν† ν°μ§œλ¦¬ μžμ—°μ–΄ κ³„νšμ„ λ¨Όμ € 짜고, κ·Έκ±Έ μ•žμ— λΆ™μ—¬μ£ΌλŠ” 방식을 μΌμ–΄μš”. 별도 ν•™μŠ΅ μ—†μ΄μš”.

κ²°κ³Όκ°€ κ½€ λ†€λΌμ›Œμš”. μˆ˜ν•™ 벀치마크 GSM8Kμ—μ„œ LLaDA-8B 정확도가 75.6%μ—μ„œ 87.2%둜 +11.6%p λ›°μ—ˆκ³ , μ½”λ“œ 벀치마크 HumanEvalμ—μ„œλ„ +12.8%pκ°€ μ˜¬λžμ–΄μš”. 같은 κ³„νšμ„ LLaMA에 쀬을 λ•ŒλŠ” +5.7%p밖에 μ•ˆ 였λ₯΄κ±°λ“ μš”. 디퓨전 λͺ¨λΈμ΄ 2~10λ°° 더 많이 이득을 λ΄€μ–΄μš”. λΉ„μš©μ€ λ¬Έμ œλ‹Ή 0.002λ‹¬λŸ¬, 지연은 2초 μΆ”κ°€μ˜ˆμš”.

AR λͺ¨λΈκ³Ό 디퓨전 λͺ¨λΈμ΄ μ„œλ‘œμ˜ 강점을 λ‚˜λˆ  μ“°λŠ” ν•˜μ΄λΈŒλ¦¬λ“œ 접근이 μ‹€μš©μ μœΌλ‘œ ν†΅ν•œλ‹€λŠ” κ±Έ 보여쀀 μ—°κ΅¬μ˜ˆμš”.

이 글이 μ–΄λ• λ‚˜μš”?

κ΄€λ ¨ κΈ€

μ—°κ΅¬νŒ€μ€ AI μžμœ¨μ„± μˆ˜μ€€μ„ μ„Έ λ‹¨κ³„λ‘œ λ‚˜λˆ  μ‹€ν—˜ν–ˆμ–΄μš”

μ—°κ΅¬νŒ€μ€ AI μžμœ¨μ„± μˆ˜μ€€μ„ μ„Έ λ‹¨κ³„λ‘œ λ‚˜λˆ  μ‹€ν—˜ν–ˆμ–΄μš”.

작돌쌀2λΆ„ μ†Œμš”

핡심은 λ³΅μž‘ν•œ 신경망 정책을 "IF μ°©λ₯™μ„ μ΄ 고도가 높은 μƒνƒœμ—μ„œ μ™Όμͺ½μœΌλ‘œ ν˜λŸ¬κ°€κ³  μžˆλ‹€λ©΄, THEN μœ„μͺ½κ³Ό 였λ₯Έμͺ½ λ°©ν–₯으둜 μΆ”λ ₯을 κ°€ν•œλ‹€" 같은 IF-THEN κ·œμΉ™μœΌλ‘œ 증λ₯˜ν•˜λŠ” κ±°μ˜ˆμš”

핡심은 λ³΅μž‘ν•œ 신경망 정책을 "IF μ°©λ₯™μ„ μ΄ 고도가 높은 μƒνƒœμ—μ„œ μ™Όμͺ½μœΌλ‘œ ν˜λŸ¬κ°€κ³  μžˆλ‹€λ©΄, THEN μœ„μͺ½κ³Ό 였λ₯Έμͺ½ λ°©ν–₯으둜 μΆ”λ ₯을 κ°€ν•œλ‹€" 같은 IF-THEN κ·œμΉ™μœΌλ‘œ 증λ₯˜ν•˜λŠ” κ±°μ˜ˆμš”.

작돌쌀2λΆ„ μ†Œμš”

총 νŒŒλΌλ―Έν„° 1,190μ–΅ 개의 MoE ꡬ쑰인데, μ‹€μ œλ‘œ 토큰 처리 μ‹œ ν™œμ„±ν™”λ˜λŠ” 건 60μ–΅ κ°œμ˜ˆμš”

총 νŒŒλΌλ―Έν„° 1,190μ–΅ 개의 MoE ꡬ쑰인데, μ‹€μ œλ‘œ 토큰 처리 μ‹œ ν™œμ„±ν™”λ˜λŠ” 건 60μ–΅ κ°œμ˜ˆμš”.

작돌쌀2λΆ„ μ†Œμš”