μ λͺ©(νκΈ): λ‘컬 LLM μ μ κ°μ΄λ v40 ν΅μ¬ μ 리 μλ¬Έ μ λͺ©(μλ¬Έ): λ‘컬 LLM μ μ κ°μ΄λ (v40) μλ¬Έ: λ‘컬 LLM μ μ κ°μ΄λ (v40) μμ€: dev-to-ai MD νμΌ: content/2026-05-26/dev-to-ai-llm-v40.md
ν΅μ¬ λ΄μ©
λ‘컬 LLM μ μ κ°μ΄λ v40κ° κ³΅κ°λλ©΄μ, 리λ μ€μμ νλΌμ΄λ²μ μ€μ¬ AI νκ²½μ μ§μ ꡬμΆνλ κΈ°μ€μ΄ μ 리λμ΄μ.
κ°μ΄λλ Ubuntu 20.04+/Debian 11+, μ΅μ 4μ½μ΄ CPUΒ·16GB RAMΒ·50GB μ μ₯곡κ°, κΆμ₯ 8μ½μ΄Β·32GB RAMμ μ μνμ΄μ. GPUλ GTX 10xx μ΄μκ³Ό CUDA 11.8+λ₯Ό κΆμ₯ν΄μ.
νλ μμν¬λ llama.cpp, Ollama, vLLM, LocalAIλ₯Ό λΉκ΅νκ³ μ΅μ’ μΆμ²μ llama.cppμμ. μμ μ€νμ Llama-2-7B GGUFμ μ΅λ 512ν ν°, temp 0.7, repeat penalty 1.1, GPU μ€νλ‘λ© -ngl 35 μ€μ μ μ¬μ©νκ±°λ μ.
ν΅μ¬μ ν΄λΌμ°λ μμ‘΄μ μ€μ΄λ©΄μλ μ±λ₯Β·λΉμ©Β·μ μ± ν΅μ λ₯Ό κ· ν μκ² κ°μ Έκ°λ μ€μ κΈ°μ€μ΄ μκ²Όλ€λ μ μ΄μμ.
μ‘λμ€μ νλ§λ
llama.cppλ₯Ό μ€μ¬μΌλ‘ μ€μΉΒ·CUDA λΉλΒ·μ€ν νλΌλ―Έν°(-n 512, temp 0.7)κΉμ§ μ μν΄ μ¬νμ±μ΄ λμμ. 보μκ³Ό μ§μ°μκ°μ μ§μ ν΅μ νκΈ° μ¬μμ Έμ.
μΆμ²: λ‘컬 LLM μ μ κ°μ΄λ (v40)