ํด๋ผ์ฐ๋ ์ ๊ณต์ ์ฒด์์ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ, ์จ์ดํ์ฐ์ค, ๋ ์ดํฌํ์ฐ์ค ์ํคํ ์ฒ ๋ฐ ๋จธ์ ๋ฌ๋ ํ๋ซํผ ์ค์ ์ ํฌํจํ ๋ฐ์ดํฐ ์์ง๋์ด๋ง ๋ฐ AI/ML ์๋น์ค.
์์ํ๊ธฐ
๋ฐ์ดํฐ๋ ์์ ์ ์ผ๋ก ํ๋ฅด๊ณ , ์ ์ ํ ๋ณํ๋๋ฉฐ, ์ ์์ ์ฌ๋ฐ๋ฅธ ์์คํ ์ ๋๋ฌํ ๋๋ง ๊ฐ์น๊ฐ ์์ต๋๋ค. ๋น์ฌ์ ๋ฐ์ดํฐ ์์ง๋์ด๋ง ํ์ ์กฐ์ง์ด ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์์ฌ๊ฒฐ์ ์ ๋ด๋ฆฌ๊ณ AWS, GCP ๋๋ Azure์์ AI ๋ชจ๋ธ์ ๋๊ท๋ชจ๋ก ๋ฐฐํฌํ ์ ์๋๋ก ํ์ดํ๋ผ์ธ, ์จ์ดํ์ฐ์ค, ๋ ์ดํฌํ์ฐ์ค ๋ฐ ML ํ๋ซํผ๊ณผ ๊ฐ์ ๊ธฐ๋ฐ ์ธํ๋ผ๋ฅผ ๊ตฌ์ถํฉ๋๋ค.
๋น์ฌ๋ Apache Spark, Airflow, dbt, Kafka ๋ฐ Flink๋ฅผ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๋ฐ ์ค์ผ์คํธ๋ ์ด์ ํ๋ซํผ์ ๊ตฌ์ถํฉ๋๋ค. ์คํ ๋ฆฌ์ง์ ๊ฒฝ์ฐ Snowflake, BigQuery, Redshift, Delta Lake ๋ฐ Iceberg์ ํจ๊ป ์์ ํฉ๋๋ค. ๋น์ฌ์ ML ์คํ์๋ MLflow, Kubeflow, SageMaker, Vertex AI์ ํ์ต ๋ฐ ์ถ๋ก ์ ์ํ GPU ์ง์ Kubernetes ๊ธฐ๋ฐ ๋ง์ถคํ ํ๋ซํผ์ด ํฌํจ๋ฉ๋๋ค.
์ด ์๋น์ค๋ ์ฒซ ๋ฒ์งธ ๋ถ์ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ถํ๋ ์คํํธ์ ๋ถํฐ ML ํ๋ซํผ์ ๊ตฌ์ถํ๋ ๊ธฐ์ ์ ์ด๋ฅด๊ธฐ๊น์ง ๋ฐ์ดํฐ ์ธํ๋ผ๋ฅผ ๊ตฌ์ถํ๊ฑฐ๋ ํ๋ํํด์ผ ํ๋ ํ์ฌ๋ฅผ ์ํ ๊ฒ์ ๋๋ค. ํ์ด ๋ฐ์ดํฐ ์ฌ์ผ๋ก, ๋ถ์์ ํ ํ์ดํ๋ผ์ธ ๋๋ ML ๋ชจ๋ธ ๋ฐฐํฌ์ ์ด๋ ค์์ผ๋ก ๊ณ ์ฌํ๊ณ ์๋ค๋ฉด, ๋น์ฌ๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์์ง๋์ด๋ง ์ ๋ฌธ ์ง์์ ์ ๊ณตํฉ๋๋ค.
๋ฐ์ดํฐ ์์ค, ํ์ฌ ์ธํ๋ผ, ๋ถ์ ์๊ตฌ ์ฌํญ ๋ฐ ML/AI ๋ชฉํ๋ฅผ ํ๊ฐํฉ๋๋ค.
ํ์ดํ๋ผ์ธ ํ ํด๋ก์ง, ์คํ ๋ฆฌ์ง ๊ณ์ธต ๋ฐ ML ์ธํ๋ผ๋ฅผ ํฌํจํ๋ ๋ฐ์ดํฐ ํ๋ซํผ ์ํคํ ์ฒ๋ฅผ ์ค๊ณํฉ๋๋ค.
๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ถํ๊ณ , ์จ์ดํ์ฐ์ค๋ฅผ ๋ฐฐํฌํ๋ฉฐ, ML ํ๋ซํผ์ ๊ตฌ์ฑํ๊ณ , ๋ชจ๋ํฐ๋ง์ ์ค์ ํฉ๋๋ค.
์ฟผ๋ฆฌ ์ฑ๋ฅ์ ์กฐ์ ํ๊ณ , ํ์ดํ๋ผ์ธ ๋น์ฉ์ ์ต์ ํํ๋ฉฐ, ๋ฐ์ดํฐ ํ์ง ๊ฒ์ฌ๋ฅผ ๊ตฌํํ๊ณ , ML ๋ชจ๋ธ์ ๊ฒ์ฆํฉ๋๋ค.
๋ฌธ์์ ํจ๊ป ์ธ์์ธ๊ณ๋ฅผ ์งํํ๊ณ , ๋ฐ์ดํฐ ํ์ ๊ต์กํ๋ฉฐ, ํ์ดํ๋ผ์ธ ์์ ์ฑ์ ์ํ ์ง์์ ์ธ ์ง์์ ์ ๊ณตํฉ๋๋ค.
์ ํฌ ๋ฐ์ดํฐ ์์ง๋์ด๋ค์ด ๊ท์ฌ์ ๋ฐ์ดํฐ๋ฅผ ๊ฒฝ์ ์ฐ์๋ก ์ ํ์ํฌ ์์ ์ ์ธ ํ์ดํ๋ผ์ธ๊ณผ ML ์ธํ๋ผ๋ฅผ ๊ตฌ์ถํด ๋๋ฆฝ๋๋ค.
์ ํฌ๋ ๊ณ ๊ฐ์ ๋ชจ๋ธ์ ๊นจ๋ํ๊ณ ์ ๋ขฐํ ์ ์๋ ๋ฐ์ดํฐ๊ฐ ์ ๊ณต๋๋๋ก ํผ์ฒ ์์ง๋์ด๋ง, ๋ฐ์ดํฐ ๋ผ๋ฒจ๋ง ํ์ดํ๋ผ์ธ, ํ์ต ๋ฐ์ดํฐ ๊ด๋ฆฌ, ํผ์ฒ ์คํ ์ด, ์๋ํ๋ ๋ฐ์ดํฐ ํ์ง ๊ฒ์ฆ์ ํฌํจํ ML ์ํฌํ๋ก์ฐ๋ฅผ ์ํ ์๋ํฌ์๋ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ถํฉ๋๋ค.
์ ํฌ์ ๋ฐ์ดํฐ ์์ง๋์ด๋ง ๋ฐ AI/ML ํ์ดํ๋ผ์ธ ๊ฐ๋ฐ ์๋น์ค๋ ์๊ฐ๋น $30~$50์ด๋ฉฐ, ์์จ์ ๊ณ ๊ฐ์ ๋ฐ์ดํฐ ์ธํ๋ผ ๋ฐ ML ์ํฌํ๋ก์ฐ ์๊ตฌ์ฌํญ์ ๋ณต์ก์ฑ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋๋ค.
๋ค, ์ ํฌ๋ Feast, Tecton๊ณผ ๊ฐ์ ๋๊ตฌ ๋๋ Redis์ BigQuery ์์ ๊ตฌ์ถ๋ ๋ง์ถคํ ์๋ฃจ์ ์ ์ฌ์ฉํ์ฌ ํผ์ฒ ์คํ ์ด๋ฅผ ๊ตฌํํ์ฌ, ๊ณ ๊ฐ์ ML ํ์ด ํ์ต ๋ฐ ์ถ๋ก ์ ๋ฐ์ ๊ฑธ์ณ ํผ์ฒ๋ฅผ ์ผ๊ด๋๊ฒ ๊ณต์ , ๊ฒ์ ๋ฐ ์ ๊ณตํ ์ ์๋๋ก ์ง์ํฉ๋๋ค.
์ ํฌ๋ ๋ชจ๋ธ ์ฑ๋ฅ ์ ํ๋ฅผ ์ผ์ผํค๊ธฐ ์ ์ ๋ฐ์ดํฐ ํ์ง ๋ฌธ์ ๋ฅผ ํ์ ํ๊ธฐ ์ํด Great Expectations ๋๋ Deequ๋ฅผ ์ฌ์ฉํ ์๋ํ๋ ๋ฐ์ดํฐ ์ ํจ์ฑ ๊ฒ์ฌ, ์คํค๋ง ๊ฐ์ ์ ์ฉ, ๋๋ฆฌํํธ ๊ฐ์ง ๋ฐ ํ์ดํ๋ผ์ธ์ ๋ชจ๋ ๋จ๊ณ์์ ํต๊ณ์ ํ๋กํ์ผ๋ง์ ๊ตฌํํฉ๋๋ค.
๋ค, ์ ํฌ๋ MLflow๋ฅผ ์ฌ์ฉํ ๋ชจ๋ธ ๋ฒ์ ๊ด๋ฆฌ, ์๋ํ๋ ์ฌํ์ต ํธ๋ฆฌ๊ฑฐ, A/B ํ ์คํ ์ธํ๋ผ, ๊ทธ๋ฆฌ๊ณ ์ถ๋ก ๋ถํ์ ๊ธฐ๋ฐํ ์คํ ์ค์ผ์ผ๋ง์ด ์ ์ฉ๋ Kubernetes ๊ธฐ๋ฐ ๋ชจ๋ธ ์๋น์ ํฌํจํ ์์ ํ MLOps ํ์ดํ๋ผ์ธ์ ๊ตฌ์ถํฉ๋๋ค.