Meta๊ฐ GPU ํด๋ฌ์คํฐ ๋ชจ๋ํฐ๋ง ๋๊ตฌ GCM์ ์คํ์์ค๋ก ๊ณต๊ฐํ์ด์. AI ํ์ต ์ธํ๋ผ์ '์นจ๋ฌต์ ๊ณ ์ฅ'์ ์ก์๋ด๋ ๋๊ตฌ์์.
GPU 4,096์ฅ ์ค 1์ฅ์ด ๊ฒ์ผ๋ก ์ ์์ธ๋ฐ ์ฑ๋ฅ์ด ๋จ์ด์ง๋ฉด, ์ ์ฒด ํ์ต์ด ์ค์ผ๋ผ์. ๊ธฐ์กด ๋ชจ๋ํฐ๋ง ๋๊ตฌ๋ก ์ด๊ฑธ ๋ชป ์ก๊ฑฐ๋ ์.
GCM์ Slurm ์ฐ๋์ผ๋ก GPU ์ํ๋ฅผ ํ์ต ์์ (Job ID)์ ์ฐ๊ฒฐํด์. "์ด๋ GPU๊ฐ, ์ด๋ค ์์ ์์, ์ ๋๋ฆฐ์ง" ์ ํํ ์ง์ด์ค์.
ํ์ต ์์ ์ GPU ์ ๊ฒ, ๋๋ ํ NVIDIA DCGM ์ ๋ฐ ์ง๋จ. ๊ณ ์ฅ GPU๋ฅผ ๋ฏธ๋ฆฌ ๋นผ์ ๋น์ผ ์ฐ์ฐ ๋ญ๋น๋ฅผ ๋ง์์.
Python 94% + Go. OpenTelemetry ํ์ค ํธํ์ด๋ผ Prometheus, Grafana์ ๋ฐ๋ก ์ฐ๊ฒฐ ๊ฐ๋ฅํด์.