2026-03-22

핡심은 "μ™„μ„±λœ ν”„λ ˆμž„μ›Œν¬ λŒ€μ‹  직접 μ‘°λ¦½ν•œλ‹€"λŠ” κ±°μ˜ˆμš”

πŸ’‘ ν•œμ€„ μš”μ•½|핡심은 "μ™„μ„±λœ ν”„λ ˆμž„μ›Œν¬ λŒ€μ‹  직접 μ‘°λ¦½ν•œλ‹€"λŠ” κ±°μ˜ˆμš”.

ꡬ글 λ”₯λ§ˆμΈλ“œμ˜ JAX 기반 κ°•ν™”ν•™μŠ΅ 라이브러리 RLax둜 DQN μ—μ΄μ „νŠΈλ₯Ό μ²˜μŒλΆ€ν„° 직접 κ΅¬ν˜„ν•˜λŠ” νŠœν† λ¦¬μ–Όμ΄ λ‚˜μ™”μ–΄μš”.

핡심은 "μ™„μ„±λœ ν”„λ ˆμž„μ›Œν¬ λŒ€μ‹  직접 μ‘°λ¦½ν•œλ‹€"λŠ” κ±°μ˜ˆμš”. RLax + JAX + Haiku + Optax μ‘°ν•©μœΌλ‘œ 신경망 μ •μ˜, λ¦¬ν”Œλ ˆμ΄ 버퍼, TD 였차 계산, μ΅œμ ν™”κΉŒμ§€ μ „ 과정을 μ†μˆ˜ μŒ“μ•„μš”. 128 μœ λ‹›μ§œλ¦¬ 2μΈ΅ MLP둜 Q값을 μ˜ˆμΈ‘ν•˜κ³ , Adam(lr=3e-4)으둜 ν•™μŠ΅ν•˜λŠ” κ΅¬μ‘°κ±°λ“ μš”.

CartPole-v1 ν™˜κ²½μ—μ„œ λ§‰λŒ€ κ· ν˜• 작기λ₯Ό ν•™μŠ΅μ‹œν‚€λŠ” 게 λͺ©ν‘œμΈλ°, νŒ¨ν‚€μ§€ 뒀에 μˆ¨κ²¨μ§„ RL 핡심 둜직이 μ–΄λ–»κ²Œ λ§žλ¬Όλ¦¬λŠ”μ§€ 직접 λ³Ό 수 μžˆμ–΄μš”.

κ°•ν™”ν•™μŠ΅ 원리λ₯Ό μ œλŒ€λ‘œ μ΄ν•΄ν•˜λ €λ©΄ ν”„λ ˆμž„μ›Œν¬ 없이 ν•œ λ²ˆμ€ 직접 μ§œλ΄μ•Ό ν•œλ‹€λŠ” κ±Έ λ‹€μ‹œ λ³΄μ—¬μ£ΌλŠ” μ˜ˆμ‹œμ˜ˆμš”.

이 글이 μ–΄λ• λ‚˜μš”?

κ΄€λ ¨ κΈ€

ν˜„μž¬ Trainium 칩은 3μ„ΈλŒ€ ν•©μ‚° 140만 κ°œκ°€ 배포돼 μžˆλŠ”λ°, 그쀑 Anthropic의 Claudeκ°€ Trainium2 μΉ© 100만 개 μ΄μƒμ—μ„œ λŒμ•„κ°€κ³  μžˆκ±°λ“ μš”

ν˜„μž¬ Trainium 칩은 3μ„ΈλŒ€ ν•©μ‚° 140만 κ°œκ°€ 배포돼 μžˆλŠ”λ°, 그쀑 Anthropic의 Claudeκ°€ Trainium2 μΉ© 100만 개 μ΄μƒμ—μ„œ λŒμ•„κ°€κ³  μžˆκ±°λ“ μš”.

작돌쌀2λΆ„ μ†Œμš”

λ””μ¦ˆλ‹ˆ 'κ²¨μšΈμ™•κ΅­'의 λˆˆμ‚¬λžŒ 캐릭터λ₯Ό λ‘œλ΄‡μœΌλ‘œ κ΅¬ν˜„ν•œ κ±°μ˜ˆμš”

λ””μ¦ˆλ‹ˆ 'κ²¨μšΈμ™•κ΅­'의 λˆˆμ‚¬λžŒ 캐릭터λ₯Ό λ‘œλ΄‡μœΌλ‘œ κ΅¬ν˜„ν•œ κ±°μ˜ˆμš”.

작돌쌀2λΆ„ μ†Œμš”

κ·Έκ°€ λͺ‡ 달에 걸쳐 μ†μˆ˜ μ‘°μ •ν•œ GPT-2 ν•™μŠ΅ 섀정을 자율 μ—μ΄μ „νŠΈμ—κ²Œ ν•˜λ£»λ°€ λ§‘κ²Όλ”λ‹ˆ, 인간이 λ†“μ³€λ˜ μ„Έλ°€ν•œ 쑰정값듀을 μ°Ύμ•„λƒˆκ±°λ“ μš”

κ·Έκ°€ λͺ‡ 달에 걸쳐 μ†μˆ˜ μ‘°μ •ν•œ GPT-2 ν•™μŠ΅ 섀정을 자율 μ—μ΄μ „νŠΈμ—κ²Œ ν•˜λ£»λ°€ λ§‘κ²Όλ”λ‹ˆ, 인간이 λ†“μ³€λ˜ μ„Έλ°€ν•œ 쑰정값듀을 μ°Ύμ•„λƒˆκ±°λ“ μš”.

작돌쌀2λΆ„ μ†Œμš”