2026-03-27

ํ•ต์‹ฌ์€ ๋ฐฑ์—”๋“œ๊ฐ€ ๋‹ฌ๋ผ๋„ ์ถ”๋ก  ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ํ†ต์ผํ•œ ์ ์ด์—์š”

๐Ÿ’ก ํ•œ์ค„ ์š”์•ฝ|ํ•ต์‹ฌ์€ ๋ฐฑ์—”๋“œ๊ฐ€ ๋‹ฌ๋ผ๋„ ์ถ”๋ก  ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ํ†ต์ผํ•œ ์ ์ด์—์š”.

Qwen3.5 ์ถ”๋ก  ๋ชจ๋ธ์„ ์ฝœ๋žฉ์—์„œ 27B GGUF์™€ 2B 4๋น„ํŠธ๋กœ ํ”Œ๋ž˜๊ทธ ํ•˜๋‚˜๋กœ ์ „ํ™˜ํ•ด ๋Œ๋ฆฌ๋Š” ๊ตฌํ˜„์ด ๊ณต๊ฐœ๋์–ด์š”.

ํ•ต์‹ฌ์€ ๋ฐฑ์—”๋“œ๊ฐ€ ๋‹ฌ๋ผ๋„ ์ถ”๋ก  ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ํ†ต์ผํ•œ ์ ์ด์—์š”. GPU๋ฅผ ๋จผ์ € ์ ๊ฒ€ํ•˜๊ณ , ๊ฒฝ๋กœ์— ๋”ฐ๋ผ llama.cpp ๋˜๋Š” transformers+bitsandbytes๋ฅผ ์„ค์น˜ํ•œ ๋’ค generate_fnยทstream_fn์œผ๋กœ ๊ฐ™์€ ๋ฐฉ์‹์œผ๋กœ ํ˜ธ์ถœํ•˜๊ฒŒ ๋งŒ๋“ค์—ˆ๊ฑฐ๋“ ์š”.

27B ๊ฒฝ๋กœ์—์„  CUDA ๊ธฐ๋ฐ˜ llama-cpp-python์„ ์„ค์น˜ํ•˜๊ณ , ํ—ˆ๊น…ํŽ˜์ด์Šค์˜ Q4_K_M GGUF ํŒŒ์ผ ์•ฝ 16.5GB๋ฅผ ๋‚ด๋ ค๋ฐ›์•„์š”. ๋กœ๋“œ ์„ค์ •์€ n_ctx 8192, n_gpu_layers 40, n_threads 4๋กœ ์ œ์‹œ๋๊ณ , ์„ค์น˜ ์‹œ๊ฐ„๋„ 3~5๋ถ„์œผ๋กœ ์•ˆ๋‚ด๋์–ด์š”.

์˜๋ฏธ๋Š” ๋ถ„๋ช…ํ•ด์š”. ๋Œ€ํ˜• ์ถ”๋ก (27B)๊ณผ ๊ฒฝ๋Ÿ‰ ์ถ”๋ก (2B 4๋น„ํŠธ)์„ ๊ฐ™์€ ์ฝ”๋“œ ๊ตฌ์กฐ์—์„œ ์˜ค๊ฐ€๋ฉฐ, ๋ฉ€ํ‹ฐํ„ด ChatSession๊ณผ ์ถ”๋ก /์ตœ์ข…๋‹ต ๋ถ„๋ฆฌ ํŒŒ์‹ฑ๊นŒ์ง€ ์‹คํ—˜ ์žฌํ˜„์„ฑ์„ ๋†’์˜€๋‹ค๋Š” ์ ์ด์—์š”.

์ด ๊ธ€์ด ์–ด๋• ๋‚˜์š”?