์์ฆ ์์ ํ์ผ์ด๋ ์ฑ ์์ญ ๊ถ์ ํต์งธ๋ก AIํํ ๋จน์ฌ๋๊ณ , ๋ด๊ฐ ์ง๋ฌธํ๋ฉด ๊ฑฐ๊ธฐ์ ์์ ์ ๋ต๋ง ๊ณจ๋ผ์ฃผ๋ ๋๋ง์ ๋ง์ถคํ ๋น์(RAG)๋ฅผ ๋ง๋๋ ๋ถ๋ค์ด ๋ง์ฃ ?
์ด ๊ธฐ๋ฅ์ ๋ง๋ค ๋ ๋ณด์ด์ง ์๊ฒ ๊ฐ์ฅ ์ค์ํ ์ฌ์ฅ์ด ๋ฐ๋ก '๋ฒกํฐ ์๋ฒ ๋ฉ(Vector Embedding) ๋ชจ๋ธ'์ ๋๋ค. ์ด ๋ชจ๋ธ์ ์ด๋ค ๊ฑธ ๊ณ ๋ฅด๋์ ๋ฐ๋ผ AI๊ฐ ๋๋ํ๊ฒ ์ฐพ์๋ผ์ง, ๋ด์๋ฆฌ๋ฅผ ํ ์ง๊ฐ ๊ฒฐ์ ๋๊ฑฐ๋ ์.
์๋ฒ ๋ฉ ๋ชจ๋ธ, ๊ทธ๊ฒ ๋ญ๋ฐ?
์ด๋ ค์ด ๊ธฐ์ ์ฉ์ด ๊ฐ์ง๋ง, ๋น๊ฐ๋ฐ์ ์์ ์์ ๋ณด๋ฉด "๋ชจ๋ ๊ธ์ AI๊ฐ ์์๋ค์ ์ ์๋ ์์ ํ์ ์ซ์(์ขํ)๋ก ๋ฐ๊ฟ์ฃผ๋ ํต์ญ์ฌ"๋ผ๊ณ ์ดํดํ์๋ฉด ๋ฉ๋๋ค.
๊ธ์ ๋ด๊ธด ๋ป์ด๋ ๊ฐ์ ์ด ๋น์ทํ ์๋ก ์ด ์ซ์๋ค๋ผ๋ฆฌ ๊ฐ๊น์ด ๊ณณ์ ๋ฌถ์ด๊ฒ ๋๊ฑฐ๋ ์. ๊ฒฐ๊ตญ ๋ ๋๋ํ ํต์ญ์ฌ(์๋ฒ ๋ฉ ๋ชจ๋ธ)๋ฅผ ์ธ์๋ก, ๋ด๊ฐ ๋์ถฉ ๊ฐ๋ก๊ฐ์ด ์ง๋ฌธํด๋ ์ฐฐ๋ก๊ฐ์ด ๋น์ทํ ๋ฌธ์๋ฅผ ์ฐพ์์ฃผ๋ ๊ฑฐ์์.
1. ๋ด ํ๋ก์ ํธ ๋ฒ์์ ๋ง๋ ํฌ๊ธฐ ๋ฌด์กฐ๊ฑด ์ ์ผ ํฌ๊ณ ๋น์ธ๊ณ ์ข์ ๋ชจ๋ธ์ ์ด๋ค๊ณ ์ข์ ๊ฑด ์๋๋๋ค. ๋ฐฉ๋ํ ๋ฌธ์๋ฅผ ๋ค์ ธ์ผ ํ๋ค๋ฉด ์ฐจ์์ด ๋์ ํฐ ๋ชจ๋ธ์ด ์ข์ง๋ง, ๊ฐ์ธ ๋ธ๋ก๊ทธ์ฉ ๊ฒ์์ด๋ ์๊ท๋ชจ ํ๋ก์ ํธ์์๋ ๊ฐ๋ณ๊ณ ๋น ๋ฅธ ์ํ ์คํ์์ค ๋ชจ๋ธ์ด ํจ์ฌ ๊ฐ์ฑ๋น๊ฐ ์ข๊ณ ์๋๋ ๋น ๋ฆ ๋๋ค.
์ก๋์ค์ ํ๋ง๋
๋ฐ์ด๋ธ์ฝ๋ฉ์ผ๋ก ๋๋ง์ ์ฑ๋ด์ ๋ง๋ค ๋, ๋ง์ ๋ถ๋ค์ด LLM(ChatGPT, Claude ๋ฑ)์ ์ฑ๋ฅ์ ์์ฒญ ๋ฐ์ง์๋ฉด์ ์ ์ ๋ด ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ฅผ ํต์ญ์์ผ์ฃผ๋ '์๋ฒ ๋ฉ ๋ชจ๋ธ'์ ๊ธฐ๋ณธ๊ฐ์ผ๋ก ๋์ถฉ ๋์ด๊ฐ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์์.
ํ์ง๋ง ์ค์ ๋ก RAG ์ฑ๋ด์ ํ๋ฆฌํฐ๋ "๋ต์ฅ์ ์ผ๋ง๋ ์์๊ฒ ์ฐ๋(LLM)"๋ณด๋ค "๋ด๋ถ ๋ฌธ์๋ฅผ ์ผ๋ง๋ ์ ํํ ์ฐพ์์ค๋๋(์๋ฒ ๋ฉ)"์์ 90% ์ด์ ๊ฐ๋ฆฝ๋๋ค. ๊ฐ์ธ ํ๋ก์ ํธ๋ฅผ ๊ธฐํํ์ค ๋ ๋น์ฉ๊ณผ ๋ชฉ์ ์ ๋ง๋ ๋๋ํ ์๋ฒ ๋ฉ ๋ชจ๋ธ๋ง ์ ์น์ด๋ ์๋น์ค ์์ค์ด ํ ๋ฌ๋ผ์ง๋๋ค!
์ถ์ฒ: [Dev.to] Choosing the Right Vector Embedding Model and Dimension