Question 1

MicrocosmWorks, üretim ML pipeline'larında model sürümleme ve rollback'i nasıl ele alıyor?

Accepted Answer

MicrocosmWorks, her model sürümünü eğitim verisi snapshot'ı, hyperparameters ve değerlendirme metrikleriyle birlikte takip eden MLflow veya Weights & Biases gibi araçları kullanarak bir model registry pattern uygular. Dağıtım pipeline'larımız, yeni bir modelin trafiğin küçük bir yüzdesine hizmet verdiği, temel performans göstergelerini izlerken, doğruluk veya latency tanımlı eşiklerin ötesinde bozulursa otomatik rollback tetikleyicileriyle canary release'leri destekler. Bu, kötü performans gösteren bir modelin kullanıcılarınızın kontrol edilen bir kısmından fazlasını asla etkilememesini sağlar.

Question 2

ML modellerini sunum katmanını kesintiye uğratmadan, yinelenen bir programla yeniden eğitmek için hangi altyapı gereklidir?

Accepted Answer

MicrocosmWorks, ML ardışık düzenlerini, ayrı eğitim ve sunum altyapılarını bir artifact store aracılığıyla bağlayarak tasarlar; böylece yeniden eğitim işleri, üretim çıkarım uç noktalarıyla kaynaklar için rekabet etmeden geçici GPU kümelerinde çalışır. Veri kayması tespiti veya sabit programlarda yeniden eğitimi tetiklemek için Kubeflow Pipelines veya Apache Airflow gibi orkestrasyon araçları kullanırız; bu araçlar, yeniden eğitilmiş bir modeli ancak mevcut sürümden daha iyi performans gösterirse üretime geçiren otomatik doğrulama geçitlerine sahiptir. Bu mimari, modellerinizin herhangi bir sunum kesintisi olmadan sürekli olarak gelişmesini sağlar.

Question 3

ML model performansını zamanla sessizce düşüren veri kaymasını (data drift) nasıl tespit edip ele alıyorsunuz?

Accepted Answer

MicrocosmWorks, her üretim ML pipeline'ına kayma tespitini, özellik dağılımları için Kolmogorov-Smirnov testi gibi istatistiksel testler ve gerçek doğruluk etiketleri (ground truth labels) kullanılabilir hale geldikçe tahmin doğruluğunu takip eden performans izleme panoları (dashboards) kullanarak entegre eder. Kayma yapılandırılmış eşikleri aştığında, pipeline'ımız en son verilerle otomatik olarak yeniden eğitimi (retraining) tetikler veya kayma deseni beklenmedikse manuel inceleme için ekibi uyarır. Bu proaktif yaklaşım, model bozulmasını aşağı akış iş metrikleri (downstream business metrics) aracılığıyla fark edilmesinden haftalar önce tespit eder.

Question 4

Veri alımından model sunumuna kadar üretim seviyesinde bir ML hattı kurmanın tipik maliyeti nedir?

Accepted Answer

MicrocosmWorks, ekiplerin saatlik 15-45 dolar olarak ücretlendirildiği uçtan uca ML hatları kurar. Veri alımı, feature engineering, eğitim orkestrasyonu, model kayıt ve serving infrastructure'ı kapsayan tipik bir üretim hattı, veri karmaşıklığına ve uyumluluk gereksinimlerine bağlı olarak 10-20 hafta sürer. Eğitim iş yükleri için spot instance'lar kullanarak ve gerçek inference talebine göre auto-scaling ile serving infrastructure'ı doğru boyutlandırarak maliyetleri düşürüyoruz. Her proje, tam inşa başlamadan önce ayrıntılı bir mimari planı ve maliyet tahmini üreten 2 haftalık bir discovery sprint'i ile başlar.

Question 5

Birden fazla veri bilimcisi eş zamanlı çalışırken MicrocosmWorks, ML deneyleri genelinde tekrarlanabilirliği nasıl sağlar?

Accepted Answer

MicrocosmWorks, her eğitim çalıştırması için kod sürümlerini, veri kümesi hash'lerini, ortam yapılandırmalarını, random seed'leri ve hiperparametreleri otomatik olarak yakalayan bir deney takip altyapısı kurarak, geçmişteki herhangi bir deneyi aylar sonra tamamen tekrarlanabilir hale getirir. Eğitim ortamlarını sabitlenmiş bağımlılık sürümleriyle kapsayıcıya alırız ve veri kümelerini kod değişiklikleriyle eş zamanlı olarak sürümlemek için Git ile birlikte DVC'yi (Data Version Control) kullanırız. Bu, bir veri bilimcisinin makinesinde çalışan ancak ekip tarafından tekrarlanamayan sonuçların ortaya çıkardığı yaygın sorunu ortadan kaldırır.

Katman	Teknolojiler
Eğitim	PyTorch, TensorFlow, scikit-learn, XGBoost, Hugging Face Transformers
Orchestration	Kubeflow, SageMaker Pipelines, Airflow, Prefect, Dagster
Feature Store	Feast, Tecton, SageMaker Feature Store
Model Sunumu	TorchServe, Triton Inference Server, SageMaker Endpoints, FastAPI
Deney Takibi	MLflow, Weights & Biases, Neptune
İzleme	Evidently AI, WhyLabs, özel Prometheus metrikleri

Ne Zaman Kullanmalı	Ne Zaman Kaçınmalı
Üretimde düzenli olarak yeniden eğitime ihtiyaç duyan ML modelleriniz varsa	ML'in sorunu çözüp çözmediğini hâlâ araştırıyorsanız; notebook'larla başlayın
Birden çok modelin özellikleri paylaştığı ve tutarlı özellik mühendisliğine ihtiyaç duyduğu durumlarda	Üç ayda bir yeniden eğitilen tek bir modeliniz varsa; bir script ve cron işi yeterli olabilir
Sürümlü veri, kod ve modellerle tekrarlanabilir eğitime ihtiyacınız varsa	ML bileşeni, barındırılan bir LLM'e tek bir API çağrısıysa (bunun yerine AI SDK kalıplarını kullanın)
Model performans düşüşü iş metriklerini doğrudan etkiliyorsa	Ekibin iş akışını yönetecek ML mühendisliği becerileri yoksa

AI/ML İş Akışı Mimarisi

Buna Ne Zaman İhtiyacınız Var?

Related Architecture Patterns

Ölçeklenebilir Vektör Veritabanı Mimarisi

Bu Mimarinin Uygulanmasında Yardıma İhtiyacınız Var mı?

Desenlere Genel Bakış

Referans Mimari

Tasarım Kararları ve Takaslar

Teknoloji Seçimleri

Ne Zaman Kullanmalı / Ne Zaman Kaçınmalı

Yaklaşımımız

İlgili Planlar

İlgili Vaka Çalışmaları

RAG Boru Hattı Mimarisi

Çok Kiracılı SaaS Mimarisi

Sıkça Sorulan Sorular