Qwen3.5 ์ถ๋ก ๋ชจ๋ธ์ ์ฝ๋ฉ์์ 27B GGUF์ 2B 4๋นํธ๋ก ํ๋๊ทธ ํ๋๋ก ์ ํํด ๋๋ฆฌ๋ ๊ตฌํ์ด ๊ณต๊ฐ๋์ด์.
ํต์ฌ์ ๋ฐฑ์๋๊ฐ ๋ฌ๋ผ๋ ์ถ๋ก ์ธํฐํ์ด์ค๋ฅผ ํต์ผํ ์ ์ด์์. GPU๋ฅผ ๋จผ์ ์ ๊ฒํ๊ณ , ๊ฒฝ๋ก์ ๋ฐ๋ผ llama.cpp ๋๋ transformers+bitsandbytes๋ฅผ ์ค์นํ ๋ค generate_fnยทstream_fn์ผ๋ก ๊ฐ์ ๋ฐฉ์์ผ๋ก ํธ์ถํ๊ฒ ๋ง๋ค์๊ฑฐ๋ ์.
27B ๊ฒฝ๋ก์์ CUDA ๊ธฐ๋ฐ llama-cpp-python์ ์ค์นํ๊ณ , ํ๊น ํ์ด์ค์ Q4_K_M GGUF ํ์ผ ์ฝ 16.5GB๋ฅผ ๋ด๋ ค๋ฐ์์. ๋ก๋ ์ค์ ์ n_ctx 8192, n_gpu_layers 40, n_threads 4๋ก ์ ์๋๊ณ , ์ค์น ์๊ฐ๋ 3~5๋ถ์ผ๋ก ์๋ด๋์ด์.
์๋ฏธ๋ ๋ถ๋ช ํด์. ๋ํ ์ถ๋ก (27B)๊ณผ ๊ฒฝ๋ ์ถ๋ก (2B 4๋นํธ)์ ๊ฐ์ ์ฝ๋ ๊ตฌ์กฐ์์ ์ค๊ฐ๋ฉฐ, ๋ฉํฐํด ChatSession๊ณผ ์ถ๋ก /์ต์ข ๋ต ๋ถ๋ฆฌ ํ์ฑ๊น์ง ์คํ ์ฌํ์ฑ์ ๋์๋ค๋ ์ ์ด์์.