์ ํด GPU์ ๋น์ฉ์ ์ง๋ถํ์ง ๋ง์ญ์์ค. ์ปดํจํ ์ ์ ์์ ํ๋ก๋น์ ๋ํ๊ณ , ์ํฌ๋ก๋๋ฅผ ์ฒ๋ฆฌํ ๋ค์ ํด์ฒดํ์ฌ ์๋ณธ ๋น์ฉ์ ์์ ๋ณ ์ด์ ๋น์ฉ์ผ๋ก ์ ํํฉ๋๋ค.

๊ทํ์ ์ํฌ๋ก๋๊ฐ ๋ฒ์คํฐํฉ๋๋ค โ ์ฝํ ์ธ ๊ฐ ์ ๋ก๋๋ ๋ ๊ธ์ฆํ๋ ๋น๋์ค ์ธ์ฝ๋ฉ ์์ , 4์๊ฐ ๋์ 8๊ฐ์ GPU๊ฐ ํ์ํ๋ค๊ฐ ์๋ฌด๊ฒ๋ ํ์ ์๋ ML ํ๋ จ ์คํ, ๋น์ฆ๋์ค ์ด๋ฒคํธ์ ์ํด ํธ๋ฆฌ๊ฑฐ๋๋ ๋ฐฐ์น ์ถ๋ก ์์ , ๋๋ ๋ฐค์ ์คํ๋๋ ๋ ๋๋ง ํ์ดํ๋ผ์ธ๊ณผ ๊ฐ์ ๊ฒฝ์ฐ์ ๋๋ค. ๊ทํ๋ ๊ณผ๋ํ๊ฒ ํ๋ก๋น์ ๋๋์๊ฑฐ๋(80% ์๊ฐ ๋์ ์ ํด ๋ฆฌ์์ค์ ๋น์ฉ ์ง๋ถ) ๊ณผ์ํ๊ฒ ํ๋ก๋น์ ๋๋์์ต๋๋ค(ํผํฌ ์ ์์ ์ด ๋ช ์๊ฐ ๋์ ๋๊ธฐ). ๊ทํ๋ ํ์ํ ์ปดํจํ ์ ์ ํํ ํ์ํ ์์ ์ ํ๋ก๋น์ ๋ํ๊ณ , ์์ ์ด ์๋ฃ๋๋ฉด ํด์ ํ๋ ์ํคํ ์ฒ๊ฐ ํ์ํฉ๋๋ค โ "scale to zero"๋ฅผ GPU ์ํฌ๋ก๋์ ๋นํ์ค์ ์ผ๋ก ๋ง๋๋ ์ฝ๋ ์คํํธ ํ๋ํฐ ์์ด ๋ง์ ๋๋ค.
Explore more design patterns and system architectures
MicrocosmWorks ๊ณ ๊ฐ๋ค์ batch-heavy ๋๋ ์ฃผ๊ธฐ์ ์ธ workload๋ฅผ ๊ฐ์ง ๊ฒฝ์ฐ, on-off ์ค์ผ์ผ๋ง ๊ตฌํ ํ ์ผ๋ฐ์ ์ผ๋ก 60-80%์ ํด๋ผ์ฐ๋ ๋น์ฉ ์ ๊ฐ์ ๊ฒฝํํฉ๋๋ค. ์ด๋ compute resources๊ฐ 24/7์ด ์๋ active processing windows ๋์์๋ง ์คํ๋๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋น์ฌ๋ ์ค์ usage telemetry๋ฅผ ๊ธฐ๋ฐ์ผ๋ก scaling policies๋ฅผ ์ค๊ณํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๋งค์ผ 4์๊ฐ ๋์ ์คํ๋๋ data processing pipeline์ ์ ์ฒด 24์๊ฐ ๋์ ํด๋น 4์๊ฐ์ ๋ํด์๋ง ๋น์ฉ์ ์ง๋ถํฉ๋๋ค. ๋น์ฌ์ architects๋ discovery phase ๋์ ๊ท์ฌ์ workload patterns๋ฅผ ๋ถ์ํ์ฌ, ์ด๋ ํ ๊ตฌํ์ด ์์๋๊ธฐ ์ ์ ์ ํํ ์ ๊ฐ์ก์ ์์ธกํด ๋๋ฆฝ๋๋ค.
์ฌ์ ์๋ฐ์ ๋ ๋ ธ๋ ํ์ ์ปจํ ์ด๋ํ๋ ์ ํ๋ฆฌ์ผ์ด์ ์ ์ฝ๋ ์คํํธ ์๊ฐ์ 2-3์ด ์ ๋์ด๋ฉฐ, ํน์ GPU ์ธ์คํด์ค ๋๋ ๋๊ท๋ชจ ๋ชจ๋ธ ๋ก๋ฉ์ด ํ์ํ ์ํฌ๋ก๋์ ๊ฒฝ์ฐ 5-10๋ถ๊น์ง ๊ฑธ๋ฆฝ๋๋ค. MicrocosmWorks๋ ์ด๋ฌํ ์ง์ฐ์ ์ต์ํํ๊ธฐ ์ํด ์ฌ๋ฌ ๊ธฐ์ ์ ์ฌ์ฉํฉ๋๋ค. ์ ํฌ๋ ๊ณผ๊ฑฐ ํธ๋ํฝ ํจํด๊ณผ ์์ฝ๋ ์ด๋ฒคํธ๋ฅผ ํ์ฉํ์ฌ ์์ ์์๊ฐ ๋ฐ์ํ๊ธฐ ์ ์ ๋ฆฌ์์ค๋ฅผ ๋ฏธ๋ฆฌ ์ค๋นํ๋ ์์ธก ์ค์ผ์ผ๋ง์ ๊ตฌํํ๊ณ , ์ง์ฐ ์๊ฐ์ ๋ฏผ๊ฐํ ์ํฌ๋ก๋๋ฅผ ์ํด ์ปจํ ์ด๋ ์ด๋ฏธ์ง ์ฌ์ ํ๋ง ๋ฐ ์ ํ ์์ฝ์ ์ฌ์ฉํฉ๋๋ค. ์ฝ๋ ์คํํธ๋ฅผ ์ ํ ํ์ฉํ ์ ์๋ ์ ํ๋ฆฌ์ผ์ด์ ์ ๊ฒฝ์ฐ, ์์๊ฐ ๋ฐ์ํ๋ฉด ์ฆ์ ๊ณต๊ฒฉ์ ์ผ๋ก ํ์ฅ๋๋ ์ต์ํ์ ์ ๋ฒ ์ด์ค๋ผ์ธ์ ์ ์งํฉ๋๋ค.
MicrocosmWorks๋ ํ ๊น์ด, CPU ์ฌ์ฉ๋ฅ ๋๋ ์ปค์คํ ์ ํ๋ฆฌ์ผ์ด์ ์งํ์ ์ํด ํธ๋ฆฌ๊ฑฐ๋๋ ๊ณต๊ฒฉ์ ์ธ ์ค์ผ์ผ์ ์ ์ฑ ๊ณผ, ์ฐ๋ ์ฑ์ ๋ฐฉ์งํ๊ธฐ ์ํ ์ฟจ๋ค์ด ๊ธฐ๊ฐ์ ํฌํจํ๋ ๋ ์ ์ง์ ์ธ ์ค์ผ์ผ๋ค์ด ์ ์ฑ ์ ๊ฒฐํฉํ ๋ฐ์ํ ์คํ ์ค์ผ์ผ๋ง์ ๊ตฌํํฉ๋๋ค. ์ฐ๋ฆฌ๋ ์ค์ผ์ผ์ ์ด๋ฒคํธ ๋์ ์ด๊ณผ ํ๋ก๋น์ ๋ ๋ฒํผ๋ฅผ ๊ตฌ์ฑํ์ฌ, ์์คํ ์ด ํ ๋ฒ์ ํ๋์ ์ธ์คํด์ค์ฉ ์์๋ฅผ ์ซ๊ธฐ๋ณด๋ค๋ ์ง์์ ์ธ ์ฑ์ฅ์ ์์ํ๋๋ก ํฉ๋๋ค. ํ๋์ ์ธ์ผ์ด๋ ๋ฐ์ด๋ด ์ด๋ฒคํธ์ ๊ฐ์ด ์ ๋ง ์์ธก ๋ถ๊ฐ๋ฅํ ์คํ์ดํฌ์ ๊ฒฝ์ฐ, ๋ง์ผํ ๋๋ ์ด์ ์บ๋ฆฐ๋์ ์ด๋ฒคํธ ๊ธฐ๋ฐ ํธ๋ฆฌ๊ฑฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ฉ๋์ ์ฌ์ ํ๋ก๋น์ ๋ํฉ๋๋ค.
MicrocosmWorks๋ ์ ํด ๊ธฐ๊ฐ ๋์ ์ปดํจํ ์ 0์ผ๋ก ์ค์ผ์ผ๋งํ๊ณ ์คํ ๋ฆฌ์ง๋ ์๊ตฌ์ ์ด๊ณ ์ฆ์ ์ฌ์ฉ ๊ฐ๋ฅํ๊ฒ ์ ์งํ๋ Aurora Serverless, Neon ๋๋ PlanetScale๊ณผ ๊ฐ์ ์๋ฒ๋ฆฌ์ค ๋ฐ์ดํฐ๋ฒ ์ด์ค ์คํผ๋ง์ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ์จ์คํ ์ค์ผ์ผ๋ง์ ์ ์ฉํฉ๋๋ค. ์๋ฒ๋ฆฌ์ค ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ฅผ ์ฌ์ฉํ ์ ์๋ ์ํ ์ ์ฅ ์ํฌ๋ก๋์ ๊ฒฝ์ฐ, ์ฟผ๋ฆฌ ๋ถํ์ ๋ฐ๋ผ ๋ณต์ ๋ณธ์ ์ถ๊ฐํ๊ณ ์ ๊ฑฐํ๋ฉด์ ์ต์ํ์ ๊ธฐ๋ณธ ์ธ์คํด์ค๋ ํญ์ ์คํ ์ํ๋ก ์ ์งํ๋ ์ฝ๊ธฐ ๋ณต์ ๋ณธ ์ค์ผ์ผ๋ง์ ๊ตฌํํฉ๋๋ค. ์ด ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ ๋ฐฉ์์ ์ข ๋ฃ ๋ฐ ์ฌ์์ ์ฃผ๊ธฐ ๋์ ๋ฐ์ดํฐ๋ฒ ์ด์ค ์ํ๋ฅผ ๊ด๋ฆฌํ๋ ๋ณต์ก์ฑ ์์ด ํด๋ผ์ด์ธํธ์๊ฒ ๋ฐ์ดํฐ ํฐ์ด ์ค์ผ์ผ๋ง์ ๋น์ฉ ์ด์ ์ ์ ๊ณตํฉ๋๋ค.
MicrocosmWorks๋ Grafana ๋๋ Datadog ๋์๋ณด๋๋ฅผ ์ฌ์ฉํ์ฌ ์ธ์คํด์ค ์, ์ค์ผ์ผ๋ง ์ด๋ฒคํธ ์ง์ฐ ์๊ฐ, ์คํจํ ์ค์ผ์ผ๋ง ์๋, ๊ทธ๋ฆฌ๊ณ ์ํ๋ ์ฉ๋๊ณผ ์ค์ ์ฉ๋ ๊ฐ์ ๊ฒฉ์ฐจ๋ฅผ ์ค์๊ฐ์ผ๋ก ์ถ์ ํ๋ ํฌ๊ด์ ์ธ ์ค์ผ์ผ๋ง ๊ด์ธก์ฑ(observability)์ ๋ฐฐํฌํฉ๋๋ค. ์ ํฌ๋ ์ค์ผ์ผ๋ง ์คํจ, ์ค์ผ์ผ๋ง ์ํ์ ์ด ๋๋ฌด ๋ฎ์์ ์์ฌํ๋ ์ง์์ ์ธ ๋์ ํ์ฉ๋ฅ , ๊ทธ๋ฆฌ๊ณ ํญ์ฃผ ์ค์ผ์ผ๋ง(runaway scaling)์ ๋ํ๋ด๋ ๋น์ฉ ์ด์(anomaly)์ ๋ํด ๋ค์ค ์ฑ๋ ์๋ฆผ์ ๊ตฌ์ฑํฉ๋๋ค. ์ ํฌ ๋ฐ๋ถ(runbook)์๋ ํด๋ผ์ฐ๋ ๊ณต๊ธ์ ์ฒด ์ธ์คํด์ค ์ ํ ๋๋ฌ ๋๋ ํน์ ๊ฐ์ฉ์ฑ ์์ญ(availability zone)์์ ์ฉ๋ ๋ถ์กฑ ์ค๋ฅ ๋ฐ์๊ณผ ๊ฐ์ ์ผ๋ฐ์ ์ธ ์คํจ ๋ชจ๋์ ๋ํ ์๋ํ๋ ๋ฌธ์ ํด๊ฒฐ ๊ธฐ๋ฅ์ด ํฌํจ๋์ด ์์ต๋๋ค.
์ฐ๋ฆฌ์ ์ํคํ ํธ๋ค์ ํน์ ์๊ตฌ ์ฌํญ์ ๋ง๊ฒ ์ด ํจํด์ ์ฌ์ฉํ์ฌ ์์คํ ์ ์ค๊ณํ๊ณ ๊ตฌ์ถํ๋ ๋ฐ ๋์์ ๋๋ฆด ์ ์์ต๋๋ค.
์ฐ๋ฝํ๊ธฐ์จ-์คํ ์ค์ผ์ผ๋ง ์ํคํ ์ฒ๋ ์/์ฝ๋ ํ๋ง, ์์ ํ ๊ธฐ๋ฐ ํ๋ก๋น์ ๋, ์๋ ํด์ฒด๋ฅผ ํตํด ์ปดํจํ ๋ฆฌ์์ค๋ฅผ ๊ด๋ฆฌํฉ๋๋ค. ์ ํ์ ์ฆ์ ์ฌ์ฉํ ์ ์๋๋ก ๋ฏธ๋ฆฌ ์ด๊ธฐํ๋ ์์์ ์ธ์คํด์ค๋ฅผ ์ ์งํฉ๋๋ค. ์ฝ๋ ํ์ ์์๊ฐ ์ ํ์ ์ด๊ณผํ ๋ Spot/Preemptible ์ธ์คํด์ค์์ ์ถ๊ฐ ์ฉ๋์ ํ๋ก๋น์ ๋ํฉ๋๋ค. ์์ ์ค์ผ์คํธ๋ ์ดํฐ๋ ์ฌ์ฉ ๊ฐ๋ฅํ ์ธ์คํด์ค๋ก ์์ ์ ๋ผ์ฐํ ํ๊ณ , ์งํ ์ํฉ์ ๋ชจ๋ํฐ๋งํ๋ฉฐ, Spot ๊ฐ์ ์ข ๋ฃ ์ ์ฌ์๋๋ฅผ ์ฒ๋ฆฌํ๊ณ , ํ๊ฐ ๋น์์ง๋ฉด ์ค์ผ์ผ ๋ค์ด์ ํธ๋ฆฌ๊ฑฐํฉ๋๋ค. ์ด ํจํด์ ์ฝ๋ ์คํํธ(์ปจํ ์ด๋ ํ + ๋ชจ๋ธ ๋ก๋ฉ)๊ฐ 3-10๋ถ ๊ฑธ๋ฆด ์ ์๋ GPU ์ํฌ๋ก๋์ ํนํ ์ค์ํฉ๋๋ค.
์ด ์์คํ ์ ๋ค์ด์ค๋ ์์ ์์ฒญ์ ๋ฒํผ๋งํ๋ ์์ ํ(SQS, Redis ๋๋ ์ฌ์ฉ์ ์ง์ )๋ฅผ ์ค์ฌ์ผ๋ก ํฉ๋๋ค. ์ค์ผ์ผ๋ง ์ปจํธ๋กค๋ฌ๋ ํ ๊น์ด๋ฅผ ๋ชจ๋ํฐ๋งํ๊ณ ์ ํ์์ ๋จผ์ ์ธ์คํด์ค๋ฅผ ํ๋ก๋น์ ๋ํ ๋ค์ ์ฝ๋ ํ(Spot ์ธ์คํด์ค)์์ ํ๋ก๋น์ ๋ํฉ๋๋ค. ๊ฐ ์์ปค ์ธ์คํด์ค๋ ํ์์ ์์ ์ ๊ฐ์ ธ์ ์ํฌ๋ก๋(์ธ์ฝ๋ฉ, ํ๋ จ, ์ถ๋ก )๋ฅผ ์คํํ๊ณ ์๋ฃ๋ฅผ ๋ณด๊ณ ํ๋ฉฐ ํ๋ก ๋์๊ฐ๊ฑฐ๋ ์ข ๋ฃ๋ฉ๋๋ค. ์ฒดํฌํฌ์ธํธ ๊ด๋ฆฌ์๋ ์ค๊ฐ ์ํ๋ฅผ S3์ ์ ์ฅํ์ฌ Spot ๊ฐ์ ์ข ๋ฃ๋ฅผ ์ฒ๋ฆฌํ๊ณ , ์์ ์ด ์ฒ์๋ถํฐ ๋ค์ ์์ํ์ง ์๊ณ ๋ค๋ฅธ ์ธ์คํด์ค์์ ์ฌ๊ฐ๋ ์ ์๋๋ก ํฉ๋๋ค.
| ๊ณ์ธต | ๊ธฐ์ |
|---|---|
| ์ปดํจํ | AWS EC2 Spot (G5/P4), GCP Preemptible (A2/L4), RunPod Serverless, Modal |
| ์ค์ผ์คํธ๋ ์ด์ | Kubernetes (์คํ ์ค์ผ์ผ๋ง์ ์ํ Karpenter), AWS Batch, ์ฌ์ฉ์ ์ง์ ์์ ์ค์ผ์คํธ๋ ์ดํฐ |
| ์์ ํ | AWS SQS, BullMQ (Redis), Temporal, Celery |
| ์คํ ๋ฆฌ์ง | S3 (์ฒดํฌํฌ์ธํธ, ๋ชจ๋ธ ์ํฐํฉํธ), NVMe (๋ชจ๋ธ ์บ์), EFS (๊ณต์ ์์ ๊ณต๊ฐ) |
| ๋ชจ๋ํฐ๋ง | CloudWatch/Prometheus (ํ ๊น์ด, ์ธ์คํด์ค ํ์ฉ๋ฅ , ์์ ์ง์ฐ ์๊ฐ), ์ฌ์ฉ์ ์ง์ ๋น์ฉ ๋์๋ณด๋ |
| ์ฌ์ฉ ์์ | ํผํด์ผ ํ ์์ |
|---|---|
| ์ํฌ๋ก๋๊ฐ ๋ฒ์คํฐํ ๊ฒฝ์ฐ โ ํผํฌ ์์๊ฐ ํ๊ท ์์์ 5๋ฐฐ ์ด์ | ํธ๋ํฝ์ด ๊พธ์คํ๊ณ ์์ธก ๊ฐ๋ฅํ ๊ฒฝ์ฐ โ ์ ์ ํ ํฌ๊ธฐ์ Reserved Instances๊ฐ ๋ ์ ๋ ด |
| ์ ํด ์ํ์ผ ๋ ๋น์ฉ์ด ๋ง์ด ๋๋ GPU/๊ณ ์ฑ๋ฅ ์ปดํจํ ์์ | ์ํฌ๋ก๋๊ฐ Serverless (Lambda)์ ์ ํฉํ ๊ฒฝ๋ CPU ์ฒ๋ฆฌ์ธ ๊ฒฝ์ฐ |
| ์ฝ๋ ํ ํ๋ก๋น์ ๋์ ์ํด 1-5๋ถ ์ฝ๋ ์คํํธ๋ฅผ ํ์ฉํ ์ ์๋ ์์ | ์ด๋ฏธ๋ง ์์ ์์ ์ง์ฐ ์๊ฐ์ด ํ์ํ ๊ฒฝ์ฐ โ ์์ ๊ฐ๋ ์ธํ๋ผ๊ฐ ํ์ํฉ๋๋ค |
| ๋น์ฉ ์ต์ ํ๊ฐ ์ฃผ์ ๊ด์ฌ์ฌ์ด๋ฉฐ Spot ๊ฐ๊ฒฉ ์ฑ ์ ์ด 60-90% ์ ๊ฐ ํจ๊ณผ๋ฅผ ์ ๊ณตํ๋ ๊ฒฝ์ฐ | Spot ์ค๋จ์ด ์ฒดํฌํฌ์ธํ ์ผ๋ก ์ํํ ์ ์๋ ๋ฐ์ดํฐ ์์ค์ ์ ๋ฐํ ์ ์๋ ๊ฒฝ์ฐ |
MW๋ "์์ ๋น ๋น์ฉ" ๊ด์ ์์ ์จ-์คํ ์ค์ผ์ผ๋ง์ ์ค๊ณํฉ๋๋ค. ์ฐ๋ฆฌ๋ ๋ค์ํ ์ค์ผ์ผ๋ง ์ ๋ต์ ๊ฑธ์ณ ํ ๋จ์์ ์์ (ํ๋์ ๋น๋์ค, ํ ๋ฒ์ ํ๋ จ ์คํ, ํ ๋ฒ์ ๋ฐฐ์น ์ถ๋ก )์ ์ฒ๋ฆฌํ๋ ์ด ๋น์ฉ์ ๋ชจ๋ธ๋งํ๊ณ , ํ์ํ ์ง์ฐ ์๊ฐ SLA์์ ๋น์ฉ์ ์ต์ํํ๋ ์ ๋ต์ ์ ํํฉ๋๋ค. ์ฐ๋ฆฌ์ ๊ตฌํ์๋ ์์ ๋น ๋น์ฉ, ์ธํ๋ผ ํ์ฉ๋ฅ , Spot ์ ๊ฐ์ก์ ๋ณด์ฌ์ฃผ๋ ์ค์๊ฐ ๋น์ฉ ๋์๋ณด๋๊ฐ ํฌํจ๋ฉ๋๋ค. ์ฐ๋ฆฌ๋ Reserved Instances์ ๋นํด ๋น๋์ค ์ฒ๋ฆฌ ๋น์ฉ์ 70% ์ ๊ฐํ ์จ-์คํ GPU ์ธํ๋ผ์, 4์๊ฐ ํ๋ จ ์คํ์ ์ํด 64๊ฐ์ GPU๋ฅผ ํ๋ก๋น์ ๋ํ๊ณ ์๋์ผ๋ก ํด์ ํ๋ ML ํ๋ จ ํด๋ฌ์คํฐ๋ฅผ ๊ตฌ์ถํ์ต๋๋ค.
๋ณด์์ ์ถ์ ํ ์ถ๊ฐํ๋ ๊ธฐ๋ฅ์ด ์๋๋๋ค. ๊ทธ๊ฒ์ ์ํคํ ์ฒ์ ์์ฑ์ ๋๋ค โ ์์คํ ์ด ๋ณด์์ ์ํด ์ค๊ณ๋์๊ฑฐ๋ ๊ทธ๋ ์ง ์๊ฑฐ๋.