Question 1

on-off scaling, batch iş yükleri için sürekli çalışan altyapıya kıyasla bulut maliyetlerini ne kadar azaltabilir?

Accepted Answer

batch ağırlıklı veya periyodik iş yüklerine sahip MicrocosmWorks müşterileri, on-off scaling uygulandıktan sonra genellikle %60-80 oranında bulut maliyeti azalması görürler, çünkü işlem kaynakları 7/24 çalışmak yerine yalnızca aktif işlem pencereleri sırasında çalışır. Gerçek kullanım telemetrisine dayalı scaling politikaları tasarlarız—örneğin, günde 4 saat çalışan bir veri işleme hattı, tam 24 saat yerine sadece bu 4 saatin ücretini öder. Mimarlarımız, herhangi bir uygulama başlamadan önce kesin tasarrufları tahmin etmek için bir keşif aşamasında iş yükü desenlerinizi analiz eder.

Question 2

On-off ölçeklendirme için cold-start cezası nedir ve MicrocosmWorks bunu nasıl minimize eder?

Accepted Answer

Önceden ısıtılmış node havuzlarındaki kapsayıcılı uygulamalar için cold-start süreleri 2-3 saniyeden, özel GPU instances veya büyük model loading gerektiren iş yükleri için 5-10 dakikaya kadar değişmektedir ve MicrocosmWorks bu gecikmeyi minimize etmek için çeşitli teknikler kullanır. Geçmiş trafik modellerini ve planlanmış olayları kullanarak beklenen talepten önce kaynakları devreye sokan predictive scaling uyguluyoruz ve gecikmeye duyarlı iş yükleri için container image pre-pulling ve warm pool reservations kullanıyoruz. Hiçbir cold start'a tolerans gösteremeyen uygulamalar için, talep geldiğinde agresif bir şekilde ölçeklenen minimum bir warm baseline sürdürüyoruz.

Question 3

Öngörülemeyen trafik yoğunluklarına sahip uygulamalar için on-off scaling nasıl çalışır?

Accepted Answer

MicrocosmWorks, queue depth, CPU utilization veya özel uygulama metrikleri tarafından tetiklenen agresif scale-up politikalarını, thrashing'i önlemek için cooldown periods içeren daha kademeli scale-down politikalarıyla birleştirerek reaktif auto-scaling'i uygular. Scale-up olayları sırasında over-provisioning buffers yapılandırıyoruz, böylece sistem talebi tek tek instance'lar halinde karşılamak yerine sürekli büyümeyi öngörür. flash sales veya viral events gibi gerçekten öngörülemeyen yoğunluklar için, pazarlama veya operasyon takviminizden gelen event-driven triggers kullanarak kapasiteyi pre-provision ederiz.

Question 4

Veritabanlarına on-off ölçeklendirme uygulanabilir mi, yoksa sadece durumsuz hesaplama (stateless compute) için mi pratiktir?

Accepted Answer

MicrocosmWorks, boşta kalma sürelerinde compute'u sıfıra ölçeklendirirken storage'ı kalıcı ve anında erişilebilir tutan Aurora Serverless, Neon veya PlanetScale gibi serverless database tekliflerini kullanarak veritabanlarına on-off scaling uygular. Serverless database'leri kullanamayan stateful iş yükleri için, query load'a göre replica ekleyip çıkarırken minimal bir primary instance'ı her zaman çalışır durumda tutan read-replica scaling uyguluyoruz. Bu hibrit yaklaşım, shutdown ve yeniden başlatma döngüleri sırasında veritabanı durumunu yönetme karmaşası olmaksızın, data tier'ları için ölçeklendirmenin maliyet avantajlarını müşterilere sunar.

Question 5

MicrocosmWorks, açma-kapama ölçeklendirmesinin kesintilere neden olmamasını sağlamak için hangi izleme ve uyarıları kurar?

Accepted Answer

MicrocosmWorks, örnek (instance) sayılarını, ölçeklendirme olayı gecikmesini, başarısız ölçeklendirme girişimlerini ve istenen ile gerçek kapasite arasındaki farkı Grafana veya Datadog panolarını kullanarak gerçek zamanlı olarak izleyen kapsamlı ölçeklendirme gözlemlenebilirliği (observability) dağıtır. Ölçeklendirme hataları, ölçeklendirme tavanının çok düşük olduğunu gösteren sürekli yüksek kaynak kullanımı ve kontrolsüz ölçeklendirmeyi gösteren maliyet anormallikleri için çok kanallı uyarılar yapılandırırız. Runbook'larımız, bulut sağlayıcı örnek (instance) limitlerine ulaşma veya belirli erişilebilirlik bölgelerinde (availability zones) yetersiz kapasite hatalarıyla karşılaşma gibi yaygın hata modları için otomatik iyileştirme içerir.

Katman	Teknolojiler
Hesaplama	AWS EC2 Spot (G5/P4), GCP Preemptible (A2/L4), RunPod Serverless, Modal
Orkestrasyon	Kubernetes (otomatik ölçeklendirme için Karpenter), AWS Batch, özel iş düzenleyici
İş Kuyruğu	AWS SQS, BullMQ (Redis), Temporal, Celery
Depolama	S3 (kontrol noktaları, model artefaktları), NVMe (model önbelleği), EFS (paylaşımlı çalışma alanı)
İzleme	CloudWatch/Prometheus (kuyruk derinliği, örnek kullanımı, iş gecikmesi), özel maliyet panoları

Ne Zaman Kullanmalı	Ne Zaman Kaçınmalı
İş yükü ani artışlar gösteriyorsa — yoğun talep ortalama talebin 5 katı veya daha fazlasıysa	Trafik sabit ve tahmin edilebilir ise — doğru boyutlandırılmış ayrılmış örnekler daha ucuzdur
Boşta dururken maliyetli olan GPU/yüksek hesaplama işleri için	İş yükü sunucusuz (Lambda) platformlara uygun hafif bir CPU işleme ise
İşler, soğuk havuz sağlaması için 1-5 dakikalık soğuk başlangıca tahammül edebiliyorsa	Saniye altı iş başlatma gecikmesi gerekiyorsa — sürekli açık altyapıya ihtiyacınız var demektir
Maliyet optimizasyonu birincil endişe ise ve spot fiyatlandırma %60-90 tasarruf sağlıyorsa	Spot kesintisi, kontrol noktası oluşturmanın engelleyemeyeceği veri kaybına neden oluyorsa

Açma/Kapama Ölçekleme Mimarisi

Ne Zaman İhtiyacınız Olur

Related Architecture Patterns

Buluta Özel Altyapı

Bu Mimarinin Uygulanmasında Yardıma İhtiyacınız Var mı?

Desen Genel Bakışı

Referans Mimari

Tasarım Kararları ve Takaslar

Teknoloji Seçimleri

Ne Zaman Kullanmalı / Ne Zaman Kaçınmalı

Yaklaşımımız

İlgili Planlar

İlgili Vaka Çalışmaları

Önce Güvenlik Mimarisi

Sunucusuz Odaklı Mimari

Sıkça Sorulan Sorular