๋ชจ๋ธ์ ์ค์ค๋ก ์๋ํ์ง ์์ต๋๋ค. ๋ชจ๋ธ์ ํ๋ จํ๊ณ , ๊ฒ์ฆํ๊ณ , ๋ฐฐํฌํ๊ณ , ๋ชจ๋ํฐ๋งํ๋ ํ์ดํ๋ผ์ธ์ด ์ค์ ์ ํ์ ๋๋ค. ๋ชจ๋ธ์ ๋จ์ง ํ๋์ ์ํฐํฉํธ์ผ ๋ฟ์ ๋๋ค.

๋ ธํธ๋ถ์์ ML ๋ชจ๋ธ์ด ์๋ํจ์ ์ ์ฆํ์ต๋๋ค. ์ด์ ํ๋ก๋์ ํ๊ฒฝ์์ ๋๊ท๋ชจ ์์ธก์ ์ ๊ณตํ๊ณ , ์๋ก์ด ๋ฐ์ดํฐ๋ก ์ฌํ๋ จํ๋ฉฐ, ๋๋ฆฌํํธ๋ฅผ ๋ชจ๋ํฐ๋งํ๊ณ , ์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ํ์ฌ ๋ชจ๋ธ๋ณด๋ค ๋จ์ด์ง ๋ ๋กค๋ฐฑํ ํ์๊ฐ ์์ต๋๋ค. ์๋ํ๋ ํ๋กํ ํ์ ๊ณผ ํ๋ก๋์ ML ์์คํ ์ฌ์ด์ ๊ฒฉ์ฐจ๋ ์์ฒญ๋ฉ๋๋ค. ๋ฐ์ดํฐ ์์ง, Feature Engineering, ํ๋ จ, ๊ฒ์ฆ, ๋ฐฐํฌ ๋ฐ ๋ชจ๋ํฐ๋ง์ ๋ฐ๋ณต์ ์ด๊ณ ์๋ํ๋ ํ๋ก์ธ์ค๋ก ์ฒ๋ฆฌํ๋ ํ์ดํ๋ผ์ธ์ด ํ์ํฉ๋๋ค. ์ด๊ฒ ์์ด๋, ๋น์ ์ "AI ์ ํ"์ ๋ฐ์ดํฐ ๊ณผํ์๊ฐ ๋งค์ฃผ ์๋์ผ๋ก ๋ค์ ์คํํ๋ ๋ ธํธ๋ถ์ ๋ถ๊ณผํฉ๋๋ค.
Explore more design patterns and system architectures
MicrocosmWorks๋ MLflow ๋๋ Weights & Biases์ ๊ฐ์ ๋๊ตฌ๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ ๋ชจ๋ธ ๋ฒ์ ์ ํ์ต ๋ฐ์ดํฐ ์ค๋ ์ท, ํ์ดํผํ๋ผ๋ฏธํฐ ๋ฐ ํ๊ฐ ์งํ์ ํจ๊ป ์ถ์ ํ๋ ๋ชจ๋ธ ๋ ์ง์คํธ๋ฆฌ ํจํด์ ๊ตฌํํฉ๋๋ค. ๋น์ฌ์ ๋ฐฐํฌ ํ์ดํ๋ผ์ธ์ ์๋ก์ด ๋ชจ๋ธ์ด ์ ์ ๋น์จ์ ํธ๋ํฝ์ ์๋น์ค๋ฅผ ์ ๊ณตํ๋ ๋์ ํต์ฌ ์ฑ๊ณผ ์งํ๋ฅผ ๋ชจ๋ํฐ๋งํ๋ฉฐ, ์ ํ๋๋ ์ง์ฐ ์๊ฐ์ด ์ ์๋ ์๊ณ๊ฐ์ ์ด๊ณผํ์ฌ ์ ํ๋ ๊ฒฝ์ฐ ์๋ ๋กค๋ฐฑ ํธ๋ฆฌ๊ฑฐ๊ฐ ์๋ํ๋ ์นด๋๋ฆฌ ๋ฆด๋ฆฌ์ค๋ฅผ ์ง์ํฉ๋๋ค. ์ด๋ ์ฑ๋ฅ์ด ์ ์กฐํ ๋ชจ๋ธ์ด ํต์ ๋ ๋น์จ์ ์ฌ์ฉ์ ์ด์์๊ฒ๋ ์ํฅ์ ๋ฏธ์น์ง ์๋๋ก ๋ณด์ฅํฉ๋๋ค.
MicrocosmWorks๋ ์ํฐํฉํธ ์คํ ์ด๋ฅผ ํตํด ์ฐ๊ฒฐ๋ ๋ณ๋์ ํ๋ จ ๋ฐ ์๋น ์ธํ๋ผ๋ฅผ ๊ฐ์ถ ML ํ์ดํ๋ผ์ธ์ ์ค๊ณํ์ฌ, ์ฌํ๋ จ ์์ ์ด ํ๋ก๋์ ์ถ๋ก ์๋ํฌ์ธํธ์ ๋ฆฌ์์ค ๊ฒฝ์ ์์ด ์์ GPU ํด๋ฌ์คํฐ์์ ์คํ๋๋๋ก ํฉ๋๋ค. ์ ํฌ๋ ๋ฐ์ดํฐ ๋๋ฆฌํํธ ๊ฐ์ง ๋๋ ๊ณ ์ ๋ ์ค์ผ์ค์ ๋ฐ๋ผ ์ฌํ๋ จ์ ํธ๋ฆฌ๊ฑฐํ๊ธฐ ์ํด Kubeflow Pipelines ๋๋ Apache Airflow์ ๊ฐ์ ์ค์ผ์คํธ๋ ์ด์ ๋๊ตฌ๋ฅผ ์ฌ์ฉํ๋ฉฐ, ์ฌํ๋ จ๋ ๋ชจ๋ธ์ด ํ์ฌ ๋ฒ์ ๋ณด๋ค ์ฑ๋ฅ์ด ์ข์ ๊ฒฝ์ฐ์๋ง ํ๋ก๋์ ์ผ๋ก ์น๊ฒฉ์ํค๋ ์๋ํ๋ ์ ํจ์ฑ ๊ฒ์ฌ ๊ฒ์ดํธ๋ฅผ ํ์ฉํฉ๋๋ค. ์ด ์ํคํ ์ฒ๋ ์๋น ์ค๋จ ์์ด ๋ชจ๋ธ์ด ์ง์์ ์ผ๋ก ๊ฐ์ ๋๋๋ก ๋ณด์ฅํฉ๋๋ค.
MicrocosmWorks๋ ํน์ฑ ๋ถํฌ์ ๋ํ Kolmogorov-Smirnov test์ ๊ฐ์ ํต๊ณ์ ํ ์คํธ ๋ฐ ์ค์ (ground truth) ๋ ์ด๋ธ์ด ์ด์ฉ ๊ฐ๋ฅํด์ง ๋๋ง๋ค ์์ธก ์ ํ๋๋ฅผ ์ถ์ ํ๋ ์ฑ๋ฅ ๋ชจ๋ํฐ๋ง ๋์๋ณด๋๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ ํ๋ก๋์ ML ํ์ดํ๋ผ์ธ์ ๋๋ฆฌํํธ ๊ฐ์ง ๊ธฐ๋ฅ์ ๊ตฌ์ถํฉ๋๋ค. ๋๋ฆฌํํธ๊ฐ ๊ตฌ์ฑ๋ ์๊ณ๊ฐ์ ์ด๊ณผํ๋ฉด, ์ ํฌ ํ์ดํ๋ผ์ธ์ ์ต์ ๋ฐ์ดํฐ๋ก ์ฌํ์ต์ ์๋์ผ๋ก ํธ๋ฆฌ๊ฑฐํ๊ฑฐ๋, ๋๋ฆฌํํธ ํจํด์ด ์์์น ๋ชปํ ๊ฒฝ์ฐ ์๋ ๊ฒํ ๋ฅผ ์ํด ํ์ ์๋ฆผ์ ๋ณด๋ ๋๋ค. ์ด๋ฌํ ์ฌ์ ์๋ฐฉ์ ์ ๊ทผ ๋ฐฉ์์ ํ์ ๋น์ฆ๋์ค ์งํ๋ฅผ ํตํด ๋ชจ๋ธ ์ฑ๋ฅ ์ ํ๊ฐ ๊ฐ์ง๋๊ธฐ ๋ช ์ฃผ ์ ์ ์ด๋ฅผ ํฌ์ฐฉํฉ๋๋ค.
MicrocosmWorks๋ ์๊ฐ๋น $15~$45๋ก ์ฒญ๊ตฌ๋๋ ํ๊ณผ ํจ๊ป ์๋ํฌ์๋ ML ํ์ดํ๋ผ์ธ์ ๊ตฌ์ถํ๋ฉฐ, ๋ฐ์ดํฐ ๋ณต์ก์ฑ ๋ฐ ๊ท์ ์ค์ ์๊ตฌ์ฌํญ์ ๋ฐ๋ผ ๋ฐ์ดํฐ ์์ง, ํผ์ฒ ์์ง๋์ด๋ง, ํ๋ จ ์ค์ผ์คํธ๋ ์ด์ , ๋ชจ๋ธ ๋ ์ง์คํธ๋ฆฌ ๋ฐ ์๋น ์ธํ๋ผ๋ฅผ ํฌํจํ๋ ์ผ๋ฐ์ ์ธ ํ๋ก๋์ ํ์ดํ๋ผ์ธ์ 10~20์ฃผ๊ฐ ์์๋ฉ๋๋ค. ์ ํฌ๋ ํ๋ จ ์ํฌ๋ก๋์ ์คํ ์ธ์คํด์ค๋ฅผ ์ฌ์ฉํ๊ณ ์ค์ ์ถ๋ก ์์์ ๊ธฐ๋ฐํ ์คํ ์ค์ผ์ผ๋ง์ผ๋ก ์๋น ์ธํ๋ผ๋ฅผ ์ ์ ๊ท๋ชจ๋ก ์กฐ์ ํ์ฌ ๋น์ฉ์ ์ ๊ฐํฉ๋๋ค. ๋ชจ๋ ํ๋ก์ ํธ๋ ์ ์ฒด ๊ตฌ์ถ์ด ์์๋๊ธฐ ์ ์ ์์ธํ ์ํคํ ์ฒ ๊ณํ๊ณผ ๋น์ฉ ์์ธก์ ์ฐ์ถํ๋ 2์ฃผ๊ฐ์ ๋์ค์ปค๋ฒ๋ฆฌ ์คํ๋ฆฐํธ๋ก ์์๋ฉ๋๋ค.
MicrocosmWorks๋ ๋ชจ๋ training run์ ๋ํ code versions, dataset hashes, environment configurations, random seeds, ๊ทธ๋ฆฌ๊ณ hyperparameters๋ฅผ ์๋์ผ๋ก ์บก์ฒํ๋ experiment tracking infrastructure๋ฅผ ๊ตฌ์ถํ์ฌ, ๋ช ๋ฌ ํ์๋ ๋ชจ๋ ๊ณผ๊ฑฐ ์คํ์ ์๋ฒฝํ๊ฒ reproducibleํ๊ฒ ๋ง๋ญ๋๋ค. ์ฐ๋ฆฌ๋ pinned dependency versions๋ฅผ ๊ฐ์ง training environments๋ฅผ containerizeํ๊ณ , DVC (Data Version Control)๋ฅผ Git๊ณผ ํจ๊ป ์ฌ์ฉํ์ฌ code changes์ ๋์์ datasets๋ฅผ version ๊ด๋ฆฌํฉ๋๋ค. ์ด๋ ํ data scientist์ ๋จธ์ ์์๋ ์๋ํ์ง๋ง ํ์์๋ replicateํ ์ ์๋ ๊ฒฐ๊ณผ๋ผ๋ ํํ ๋ฌธ์ ๋ฅผ ์ ๊ฑฐํฉ๋๋ค.
์ฐ๋ฆฌ์ ์ํคํ ํธ๋ค์ ํน์ ์๊ตฌ ์ฌํญ์ ๋ง๊ฒ ์ด ํจํด์ ์ฌ์ฉํ์ฌ ์์คํ ์ ์ค๊ณํ๊ณ ๊ตฌ์ถํ๋ ๋ฐ ๋์์ ๋๋ฆด ์ ์์ต๋๋ค.
์ฐ๋ฝํ๊ธฐAI/ML ํ์ดํ๋ผ์ธ ์ํคํ ์ฒ๋ ML ์๋ช ์ฃผ๊ธฐ๋ฅผ ๋ฐ์ดํฐ ์์ง ๋ฐ ๊ฒ์ฆ, Feature Engineering ๋ฐ ์ ์ฅ, ๋ชจ๋ธ ํ๋ จ ๋ฐ Hyperparameter ํ๋, ๋ชจ๋ธ ํ๊ฐ ๋ฐ ๊ฒ์ฆ, ๋ชจ๋ธ ์๋น ๋ฐ Inference, ์ง์์ ์ธ ๋ชจ๋ํฐ๋ง๊ณผ ๊ฐ์ ๊ฐ๋ณ์ ์ด๊ณ ์๋ํ๋ ๋จ๊ณ๋ก ๋ถ๋ฆฌํฉ๋๋ค. ๊ฐ ๋จ๊ณ๋ ๋ฒ์ ๊ด๋ฆฌ๋๋ฉฐ, ์ฌํ ๊ฐ๋ฅํ๊ณ , ๊ด์ฐฐ ๊ฐ๋ฅํฉ๋๋ค. ์ด ์ํคํ ์ฒ๋ ๋ฐฐ์น(์์ ๋ ์ฌํ๋ จ) ๋ฐ ์จ๋ผ์ธ(์ค์๊ฐ Feature ๊ณ์ฐ) ์ํฌํ๋ก์ฐ๋ฅผ ๋ชจ๋ ์ง์ํฉ๋๋ค. Feature Store๋ Feature Engineering์ ๋ชจ๋ธ ํ๋ จ๊ณผ ๋ถ๋ฆฌํ์ฌ ๋ชจ๋ธ ๊ฐ Feature ์ฌ์ฌ์ฉ ๋ฐ ํ๋ จ๊ณผ ์๋น ๊ฐ์ ์ผ๊ด๋ Feature๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
ํ์ดํ๋ผ์ธ์ ๋ฐ์ดํฐ ์์ค(๋ฐ์ดํฐ๋ฒ ์ด์ค, API, ์ด๋ฒคํธ ์คํธ๋ฆผ)์์ ์์ํ์ฌ Feature๋ฅผ ๊ณ์ฐํ๊ณ Feature Store(์๋น์ ์ํ ์จ๋ผ์ธ, ํ๋ จ์ ์ํ ์คํ๋ผ์ธ)์ ์ ์ฅํ๋ Feature Engineering ๋ ์ด์ด๋ฅผ ๊ฑฐ์นฉ๋๋ค. ํ๋ จ ์ค์ผ์คํธ๋ ์ดํฐ๋ ์คํ์ ์คํํ๊ณ , ํ๋ผ๋ฏธํฐ์ ๋ฉํธ๋ฆญ์ ๋ก๊น ํ๋ฉฐ, Model Registry์ ์ ์ฅ๋ ๋ฒ์ ๊ด๋ฆฌ๋ ๋ชจ๋ธ ์ํฐํฉํธ๋ฅผ ์์ฑํฉ๋๋ค. ๋ฐฐํฌ ํ์ดํ๋ผ์ธ์ ์๋ํ๋ Canary ํ๊ฐ๋ฅผ ํตํด ๋ชจ๋ธ์ ์คํ ์ด์ง์์ ํ๋ก๋์ ์ผ๋ก ์น๊ฒฉ์ํต๋๋ค. ๋ชจ๋ธ ์๋น์ A/B ํ ์คํธ๋ฅผ ์ง์ํ๋ ๋ก๋ ๋ฐธ๋ฐ์ ๋ค์์ ์คํ๋ฉ๋๋ค. ๋ชจ๋ํฐ๋ง ๋ ์ด์ด๋ ์์ธก ๋๋ฆฌํํธ, ๋ฐ์ดํฐ ๋๋ฆฌํํธ ๋ฐ ๋น์ฆ๋์ค ๋ฉํธ๋ฆญ์ ์ถ์ ํ์ฌ ์ฌํ๋ จ์ ํธ๋ฆฌ๊ฑฐํฉ๋๋ค.
| ๋ ์ด์ด | ๊ธฐ์ |
|---|---|
| ํ๋ จ | PyTorch, TensorFlow, scikit-learn, XGBoost, Hugging Face Transformers |
| ์ค์ผ์คํธ๋ ์ด์ | Kubeflow, SageMaker Pipelines, Airflow, Prefect, Dagster |
| Feature Store | Feast, Tecton, SageMaker Feature Store |
| ๋ชจ๋ธ ์๋น | TorchServe, Triton Inference Server, SageMaker Endpoints, FastAPI |
| ์คํ ์ถ์ | MLflow, Weights & Biases, Neptune |
| ๋ชจ๋ํฐ๋ง | Evidently AI, WhyLabs, custom Prometheus metrics |
| ์ฌ์ฉ ์๊ธฐ | ํผํด์ผ ํ ์๊ธฐ |
|---|---|
| ์ ๊ธฐ์ ์ธ ์ฌํ๋ จ์ด ํ์ํ ํ๋ก๋์ ML ๋ชจ๋ธ์ด ์๋ ๊ฒฝ์ฐ | ML์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋์ง ์์ง ํ์ ์ค์ธ ๊ฒฝ์ฐ โ ๋ ธํธ๋ถ์ผ๋ก ์์ํ์ธ์ |
| ์ฌ๋ฌ ๋ชจ๋ธ์ด Feature๋ฅผ ๊ณต์ ํ๊ณ ์ผ๊ด๋ Feature Engineering์ด ํ์ํ ๊ฒฝ์ฐ | ๋ถ๊ธฐ๋ณ๋ก ์ฌํ๋ จ๋๋ ๋ชจ๋ธ์ด ํ๋๋ง ์๋ ๊ฒฝ์ฐ โ ์คํฌ๋ฆฝํธ์ Cron Job์ผ๋ก ์ถฉ๋ถํ ์ ์์ต๋๋ค. |
| ๋ฒ์ ๊ด๋ฆฌ๋ ๋ฐ์ดํฐ, ์ฝ๋, ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์ฌํ ๊ฐ๋ฅํ ํ๋ จ์ด ํ์ํ ๊ฒฝ์ฐ | ML ์ปดํฌ๋ํธ๊ฐ ํธ์คํ ๋ LLM์ ๋ํ ๋จ์ผ API ํธ์ถ์ธ ๊ฒฝ์ฐ (๋์ AI SDK ํจํด์ ์ฌ์ฉํ์ธ์) |
| ๋ชจ๋ธ ์ฑ๋ฅ ์ ํ๊ฐ ๋น์ฆ๋์ค ๋ฉํธ๋ฆญ์ ์ง์ ์ ์ธ ์ํฅ์ ๋ฏธ์น๋ ๊ฒฝ์ฐ | ํ์ ํ์ดํ๋ผ์ธ์ ์ด์ํ ML ์์ง๋์ด๋ง ๊ธฐ์ ์ด ์๋ ๊ฒฝ์ฐ |
MW๋ "ํ๋ก๋์ ์ฐ์ " ์ฌ๊ณ ๋ฐฉ์์ผ๋ก ML ํ์ดํ๋ผ์ธ์ ๊ตฌ์ถํฉ๋๋ค. ๋ชจ๋ธ ์ต์ ํ ์ ์ ์๋น ๋ฐ ๋ชจ๋ํฐ๋ง ์ธํ๋ผ๋ถํฐ ์์ํฉ๋๋ค. ๊ฒฌ๊ณ ํ ํ์ดํ๋ผ์ธ ๋ด์ ํ๋ฒํ ๋ชจ๋ธ์ด ๋ ธํธ๋ถ ๋ด์ ํ๋ฅญํ ๋ชจ๋ธ๋ณด๋ค ๋ซ์ต๋๋ค. ์ฐ๋ฆฌ์ ํ์ดํ๋ผ์ธ์๋ ์๋ํ๋ ๋ฐ์ดํฐ ์ ํจ์ฑ ๊ฒ์ฌ(Great Expectations), ํ๋ จ-์๋น ์คํ ํ ์คํธ, ์๋์ฐ ๋ชจ๋ ๋ฐฐํฌ(์ ๋ชจ๋ธ์ด ํธ๋ํฝ์ ๋ฐ์ง๋ง ๊ฒฐ๊ณผ๋ฅผ ์๋นํ์ง ์์), ๋ฉํธ๋ฆญ ํ๊ท ์ ์๋ ๋กค๋ฐฑ์ ํฌํจํ๋ ์ ์ง์ ๋กค์์์ด ํฌํจ๋ฉ๋๋ค. ์ฐ๋ฆฌ๋ ํฌ์ค์ผ์ด, ํํ ํฌ, ์ปดํจํฐ ๋น์ ๋ถ์ผ์์ ํ๋ฃจ 5์ฒ๋ง ๊ฐ ์ด์์ ์์ธก์ ์ฒ๋ฆฌํ๋ ํ์ดํ๋ผ์ธ์ ๋ฐฐํฌํ์ต๋๋ค.
๋ฏธ์ธ ์กฐ์ (fine-tuning) ์์ด LLM์ด ๋ฐ์ดํฐ์ ์ ๊ทผํ๋๋ก ํ์ธ์. RAG๋ ๋ฒ์ฉ ์ธ์ด ๋ชจ๋ธ๊ณผ ๋๋ฉ์ธ๋ณ ์ง์ ๊ฐ์ ๊ฒฉ์ฐจ๋ฅผ ํด์ํฉ๋๋ค.