Modeller kendi başlarına çalışmaz. Modellerinizi eğiten, doğrulayan, dağıtan ve izleyen iş akışı asıl üründür; model sadece bir eserdir.

Bir ML modelinin bir notebook'ta çalıştığını kanıtladınız. Şimdi bunu üretimde kullanmanız gerekiyor; tahminleri ölçekli olarak sunmak, yeni veriler üzerinde yeniden eğitmek, kaymayı (drift) izlemek ve yeni bir model mevcut olandan daha kötü performans gösterdiğinde geri almak. Çalışan bir prototip ile üretim ML sistemi arasındaki boşluk çok büyüktür. Veri alımını, özellik mühendisliğini, eğitimi, doğrulamayı, dağıtımı ve izlemeyi tekrarlanabilir, otomatik bir süreç olarak ele alan bir iş akışına ihtiyacınız var. Bu olmadan, "AI ürününüz" bir veri bilimcinin her hafta manuel olarak yeniden çalıştırdığı bir notebook'tur.
Explore more design patterns and system architectures
Mimarlarımız, bu deseni kullanarak belirli gereksinimleriniz için sistemler tasarlamanıza ve oluşturmanıza yardımcı olabilir.
İletişime GeçinAI/ML iş akışı mimarisi, ML yaşam döngüsünü ayrı, otomatikleştirilmiş aşamalara ayırır: veri alımı ve doğrulama, özellik mühendisliği ve depolama, model eğitimi ve hyperparameter ayarı, model değerlendirme ve doğrulama, model sunumu ve çıkarımı (inference) ile sürekli izleme. Her aşama sürümlü, tekrarlanabilir ve gözlemlenebilirdir. Mimari hem batch (planlı yeniden eğitim) hem de online (gerçek zamanlı özellik hesaplama) iş akışlarını destekler. Bir feature store, özellik mühendisliğini model eğitiminden ayırarak modeller arasında özellik yeniden kullanımını ve eğitim ile sunum arasında tutarlı özellikler sağlar.
İş akışı, veri kaynaklarından (veritabanları, API'ler, olay akışları) geçerek, özellikleri bir feature store'da (sunum için online, eğitim için offline) hesaplayan ve depolayan bir özellik mühendisliği katmanından ilerler. Bir eğitim orchestrator'ı deneyler yapar, parametreleri ve metrikleri kaydeder ve bir model registry'de depolanan sürümlü model artefaktları üretir. Bir dağıtım iş akışı, otomatikleştirilmiş canary değerlendirmesi ile modelleri staging'den üretime taşır. Model sunumu, A/B testi desteğiyle bir load balancer'ın arkasında çalışır. Bir izleme katmanı, yeniden eğitimi tetiklemek için tahmin kaymasını (prediction drift), veri kaymasını (data drift) ve iş metriklerini izler.
| Katman | Teknolojiler |
|---|---|
| Eğitim | PyTorch, TensorFlow, scikit-learn, XGBoost, Hugging Face Transformers |
| Orchestration | Kubeflow, SageMaker Pipelines, Airflow, Prefect, Dagster |
| Feature Store | Feast, Tecton, SageMaker Feature Store |
| Model Sunumu | TorchServe, Triton Inference Server, SageMaker Endpoints, FastAPI |
| Deney Takibi | MLflow, Weights & Biases, Neptune |
| İzleme | Evidently AI, WhyLabs, özel Prometheus metrikleri |
| Ne Zaman Kullanmalı | Ne Zaman Kaçınmalı |
|---|---|
| Üretimde düzenli olarak yeniden eğitime ihtiyaç duyan ML modelleriniz varsa | ML'in sorunu çözüp çözmediğini hâlâ araştırıyorsanız; notebook'larla başlayın |
| Birden çok modelin özellikleri paylaştığı ve tutarlı özellik mühendisliğine ihtiyaç duyduğu durumlarda | Üç ayda bir yeniden eğitilen tek bir modeliniz varsa; bir script ve cron işi yeterli olabilir |
| Sürümlü veri, kod ve modellerle tekrarlanabilir eğitime ihtiyacınız varsa | ML bileşeni, barındırılan bir LLM'e tek bir API çağrısıysa (bunun yerine AI SDK kalıplarını kullanın) |
| Model performans düşüşü iş metriklerini doğrudan etkiliyorsa | Ekibin iş akışını yönetecek ML mühendisliği becerileri yoksa |
MW, ML iş akışlarını "üretim öncelikli" bir yaklaşımla geliştirir; modeli optimize etmeden önce sunum ve izleme altyapısıyla başlarız. Sağlam bir iş akışındaki vasat bir model, bir notebook'taki harika bir modeli yener. İş akışlarımız, otomatik veri doğrulaması (Great Expectations), eğitim-sunum çarpıklığı testleri, shadow mode dağıtımı (yeni model trafik alır ancak sonuçları sunmaz) ve metrik düşüşlerinde otomatik geri alma ile kademeli dağıtımı içerir. Sağlık, fintech ve computer vision alanlarında günde 50M'dan fazla tahmini işleyen iş akışları dağıttık.
LLM'nize özel ayarlama yapmadan verilerinize erişim sağlayın. RAG, genel amaçlı dil modelleri ile alana özel bilgi arasındaki boşluğu doldurur.
MicrocosmWorks, her model sürümünü eğitim verisi snapshot'ı, hyperparameters ve değerlendirme metrikleriyle birlikte takip eden MLflow veya Weights & Biases gibi araçları kullanarak bir model registry pattern uygular. Dağıtım pipeline'larımız, yeni bir modelin trafiğin küçük bir yüzdesine hizmet verdiği, temel performans göstergelerini izlerken, doğruluk veya latency tanımlı eşiklerin ötesinde bozulursa otomatik rollback tetikleyicileriyle canary release'leri destekler. Bu, kötü performans gösteren bir modelin kullanıcılarınızın kontrol edilen bir kısmından fazlasını asla etkilememesini sağlar.
MicrocosmWorks, ML ardışık düzenlerini, ayrı eğitim ve sunum altyapılarını bir artifact store aracılığıyla bağlayarak tasarlar; böylece yeniden eğitim işleri, üretim çıkarım uç noktalarıyla kaynaklar için rekabet etmeden geçici GPU kümelerinde çalışır. Veri kayması tespiti veya sabit programlarda yeniden eğitimi tetiklemek için Kubeflow Pipelines veya Apache Airflow gibi orkestrasyon araçları kullanırız; bu araçlar, yeniden eğitilmiş bir modeli ancak mevcut sürümden daha iyi performans gösterirse üretime geçiren otomatik doğrulama geçitlerine sahiptir. Bu mimari, modellerinizin herhangi bir sunum kesintisi olmadan sürekli olarak gelişmesini sağlar.
MicrocosmWorks, her üretim ML pipeline'ına kayma tespitini, özellik dağılımları için Kolmogorov-Smirnov testi gibi istatistiksel testler ve gerçek doğruluk etiketleri (ground truth labels) kullanılabilir hale geldikçe tahmin doğruluğunu takip eden performans izleme panoları (dashboards) kullanarak entegre eder. Kayma yapılandırılmış eşikleri aştığında, pipeline'ımız en son verilerle otomatik olarak yeniden eğitimi (retraining) tetikler veya kayma deseni beklenmedikse manuel inceleme için ekibi uyarır. Bu proaktif yaklaşım, model bozulmasını aşağı akış iş metrikleri (downstream business metrics) aracılığıyla fark edilmesinden haftalar önce tespit eder.
MicrocosmWorks, ekiplerin saatlik 15-45 dolar olarak ücretlendirildiği uçtan uca ML hatları kurar. Veri alımı, feature engineering, eğitim orkestrasyonu, model kayıt ve serving infrastructure'ı kapsayan tipik bir üretim hattı, veri karmaşıklığına ve uyumluluk gereksinimlerine bağlı olarak 10-20 hafta sürer. Eğitim iş yükleri için spot instance'lar kullanarak ve gerçek inference talebine göre auto-scaling ile serving infrastructure'ı doğru boyutlandırarak maliyetleri düşürüyoruz. Her proje, tam inşa başlamadan önce ayrıntılı bir mimari planı ve maliyet tahmini üreten 2 haftalık bir discovery sprint'i ile başlar.
MicrocosmWorks, her eğitim çalıştırması için kod sürümlerini, veri kümesi hash'lerini, ortam yapılandırmalarını, random seed'leri ve hiperparametreleri otomatik olarak yakalayan bir deney takip altyapısı kurarak, geçmişteki herhangi bir deneyi aylar sonra tamamen tekrarlanabilir hale getirir. Eğitim ortamlarını sabitlenmiş bağımlılık sürümleriyle kapsayıcıya alırız ve veri kümelerini kod değişiklikleriyle eş zamanlı olarak sürümlemek için Git ile birlikte DVC'yi (Data Version Control) kullanırız. Bu, bir veri bilimcisinin makinesinde çalışan ancak ekip tarafından tekrarlanamayan sonuçların ortaya çıkardığı yaygın sorunu ortadan kaldırır.