Source: I Treated the Human Genome as a Legacy CodebaseโHereโs What I Found
๐ฃ Hook: ์ (God)์ ์ฃผ์์ ๋จ๊ฒผ์๊น?
์ํํธ์จ์ด ๊ฐ๋ฐ์๋ผ๋ฉด ๋๊ตฌ๋ ์๋ ์ง์ค์ด ์์ต๋๋ค. "์ฐ๋ ๊ธฐ ์ฝ๋(Junk Code)๋ ์๋ค. ๋ค๋ง Deprecated(์ฌ์ฉ ์ค๋จ)๋ ๊ธฐ๋ฅ๊ณผ ์ฃผ์ ์ฒ๋ฆฌ๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๊ฐ ์์ ๋ฟ์ด๋ค."
์ด ์ ์๋ ์ธ๊ฐ ๊ฒ๋ 3GB ๋ฐ์ดํฐ๋ฅผ ์๋ฌผํ์ด ์๋ '์ด์ง ๋ฐ์ดํฐ ์คํธ๋ฆผ(Binary Stream)'์ผ๋ก ์ทจ๊ธํ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ diff, grep ๊ฐ์ ๋๊ตฌ๋ก ํจํด์ ๋ถ์ํ์ฃ .
๐ ๏ธ The Method: Bio-Kernel & TRIDENT
1๋จ๊ณ: Binarizing (์ด์งํ)
ACGT ์์ด์ 0๊ณผ 1์ ๋นํธ์คํธ๋ฆผ์ผ๋ก ๋ณํํ์ต๋๋ค. ์๋ฌผํ์ ์๋ฏธ๋ ์น ๋ฌด์ํ๊ณ , ์ค์ง '๊ตฌ์กฐ์ ๋ ผ๋ฆฌ(Logic)'๋ง ๋จ๊ฒผ์ต๋๋ค.
2๋จ๊ณ: TRIDENT Engine
์์ฒด ๊ฐ๋ฐํ ํจํด ๋ง์ด๋ ์์ง์ผ๋ก ๋ค์์ ์ํํ์ต๋๋ค.
- Tokenizer: ํผ๋์ค๋ฌ์ด ์ ํธ๋ฅผ ๋์งํธ ํ ํฐ์ผ๋ก ๋ณํ.
- Pattern Miner (The Grep): ๋ฐ๋ณต๋๋ "์งง์ ์ฝ๋ ์๋ช (Signature)"์ ์ฐพ์ต๋๋ค.
- Null Hypothesis Validator: ์ด๊ฒ ์ง์ง ํจํด์ธ์ง, ์ฐ์ฐํ ๋ ธ์ด์ฆ์ธ์ง ๊ฒ์ฆ(Shuffling ํ ์คํธ)ํฉ๋๋ค.
๐ง The Findings: ๊ป์ง ์์ ์ ๋ น (Ghost in the Shell)
๋๋๊ฒ๋, ์์ 'Junk DNA'๋ผ๊ณ ๋ถ๋ฆฌ๋ ๋น์ํธํ ์์ญ์์ 18๊ฐ์ ๋ช ํํ '์์กด์ ์๊ทธ๋์ฒ'๊ฐ ๋ฐ๊ฒฌ๋์์ต๋๋ค.
- ํน์ง: ์๋ก ๋ค๋ฅธ ์ผ์์ฒด(Chromosomes)์ ํฉ์ด์ ธ ์๋๋ฐ, ์ฝ๋๊ฐ ํ ์ ํ๋ ์ ํ๋ฆฌ๊ณ ๋๊ฐ์ต๋๋ค(Copy-pasted).
- ํด์: ๋ง์น ์ค๋์ ์ ์ฃผ์ ์ฒ๋ฆฌ๋ '๊ณต์ฉ ๋ผ์ด๋ธ๋ฌ๋ฆฌ(Shared Library)'์ฒ๋ผ ๋ณด์ ๋๋ค.
MAX5์ ์๊ฐ ๐ฏ
๐ ํต์ฌ ๊ตํ
์ฐ๋ฆฌ๊ฐ ๋งค์ผ ๋ณด๋ '์ฝ๋'์ ๊ด์ ์ผ๋ก ์ธ์์ ๋ณด๋ฉด ์ ํ ๋ค๋ฅธ ํจํด์ด ๋ณด์ฌ. ๋นํธ์คํธ๋ฆผ๊ณผ ์ ๋ณด ์ด๋ก (Information Theory)์ DNA๋ฟ๋ง ์๋๋ผ ๊ฒฝ์ , ์ธ์ด ์ด๋๋ ์ ์ฉ๋ ์ ์๋ ๋ณดํธ์ ์ธ ๋๊ตฌ์ผ.
๐ ๋ด ์ํฉ์ ์ ์ฉํ๋ค๋ฉด
๋ค๊ฐ ๋ค๋ฃจ๋ ๋ฐ์ดํฐ๊ฐ '๋ก๊ทธ ํ์ผ'์ด๋ '์ผ์ ๋ฐ์ดํฐ'๋ผ๋ฉด, ๋๋ฉ์ธ ์ง์ ์์ด ์์ํ๊ฒ ํจํด(Pattern)๋ง ๋ถ์ํด๋ด.
- ๋ฐ์ดํฐ ์ด์งํ(Binarizing) ํ ์์ถ ์๊ณ ๋ฆฌ์ฆ ๋๋ ค๋ณด๊ธฐ (์ํธ๋กํผ ์ธก์ ).
-
diff๋grep๊ฐ์ ๊ธฐ๋ณธ ์ ํธ๋ฆฌํฐ๋ก ์ด์ง์ ์ธ ํจํด ์ฐพ๊ธฐ.
โ ๏ธ ์ฃผ์ํ ์
"๋ง์น๋ฅผ ๋ ์ฌ๋์๊ฒ ๋ชจ๋ ๊ฒ ๋ชป์ผ๋ก ๋ณด์ธ๋ค"๋ ๊ฑธ ์กฐ์ฌํด. ๋ฐ๊ฒฌํ ํจํด์ด ์ง์ง ์๋ฏธ ์๋ ์ ํธ์ธ์ง, ์๋๋ฉด ์ฐ์ฐ์ ์ผ์น(Noise)์ธ์ง ๊ฒ์ฆํ๋ '๊ณผํ์ ๊ฒ์ฆ' ๋จ๊ณ๊ฐ ๋ฐ๋์ ํ์ํด.
์นดํ
๊ณ ๋ฆฌ: tech_deep_dive, ``