LlamaIndex๊ฐ LiteParse๋ผ๋ ์คํ์์ค PDF ํ์ฑ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ๊ณต๊ฐํ์ด์.
๊ฐ์ฅ ํฐ ํน์ง์ TypeScript ๋ค์ดํฐ๋ธ๋ผ๋ ๊ฑฐ์์. ๊ธฐ์กด AI ์ํ๊ณ๋ ๋๋ถ๋ถ Python ๊ธฐ๋ฐ์ธ๋ฐ, LiteParse๋ Python ์์กด์ฑ์ด ์ ํ ์์ด์. Node.js์์ PDF.js์ Tesseract.js๋ฅผ ํ์ฉํด ๋ก์ปฌ์์๋ง ์คํ๋๋๊น ํด๋ผ์ฐ๋ API ๋น์ฉ๋ ์๊ณ ๋ฐ์ดํฐ๊ฐ ์ธ๋ถ๋ก ๋๊ฐ์ง ์์์.
ํต์ฌ ๊ธฐ์ ์ '๊ณต๊ฐ ํ ์คํธ ํ์ฑ(Spatial Text Parsing)'์ด์์. ์ผ๋ฐ ํ์๋ค์ PDF๋ฅผ Markdown์ผ๋ก ๋ณํํ๋ค๊ฐ ๋ค๋จ ๋ ์ด์์์ด๋ ๋ณต์กํ ํ์์ ์ปจํ ์คํธ๋ฅผ ์๋ ๊ฒฝ์ฐ๊ฐ ๋ง๊ฑฐ๋ ์. LiteParse๋ ํ ์คํธ๋ฅผ ๊ณต๊ฐ ๊ทธ๋ฆฌ๋์ ๊ทธ๋๋ก ํฌ์ํด์ ์๋ณธ ๋ ์ด์์์ ๋ค์ฌ์ฐ๊ธฐ์ ๊ณต๋ฐฑ์ผ๋ก ์ ์งํด์.
RAG ํ์ดํ๋ผ์ธ์์ ๋ฐ์ดํฐ ์์ง ๋จ๊ณ๊ฐ LLM ์์ฒด๋ณด๋ค ๋ ํฐ ๋ณ๋ชฉ์ด ๋๊ณ ์๋ ์์ ์, ๋น ๋ฅด๊ณ ํ๋ผ์ด๋ฒ์ ์นํ์ ์ธ ๋ก์ปฌ ํ์ฑ ๋๊ตฌ์ ๋ฑ์ฅ์ AI ์์ด์ ํธ ์ํฌํ๋ก์ฐ ๊ตฌ์ถ ๋น์ฉ์ ๋ฎ์ถ๋ ์๋ฏธ ์๋ ์์ง์์ด์์.