Boşta duran GPU'lar için ödeme yapmayın. Hesaplama kaynaklarını tam zamanında sağlayın, iş yükünü işleyin ve sonlandırın — böylece sermaye giderini iş başına bir işletme maliyetine dönüştürün.

İş yükünüz ani artışlar gösteriyorsa — içerik yüklendiğinde ani artış gösteren video kodlama işleri, 4 saat boyunca 8 GPU gerektiren, ardından hiçbir şey gerektirmeyen ML eğitimleri, iş olayları tarafından tetiklenen toplu çıkarım işleri veya gece boyunca çalışan render boru hatları. Ya aşırı kaynak sağlanmış durumdasınız (zamanın %80'inde boşta duran kaynaklar için ödeme yapıyorsunuz) ya da yetersiz kaynak sağlanmış durumdasınız (yoğun zamanlarda işler saatlerce kuyrukta bekliyor). Tam olarak ihtiyacınız olan hesaplama kaynağını, ihtiyaç duyduğunuzda sağlayan ve iş tamamlandığında serbest bırakan bir mimariye ihtiyacınız var — GPU iş yükleri için "sıfıra ölçeklemeyi" pratik olmayan hale getiren soğuk başlangıç cezasını ortadan kaldırarak.
Explore more design patterns and system architectures
Mimarlarımız, bu deseni kullanarak belirli gereksinimleriniz için sistemler tasarlamanıza ve oluşturmanıza yardımcı olabilir.
İletişime GeçinAçma-kapama ölçeklendirme mimarisi, sıcak/soğuk havuzlama, iş kuyruğu odaklı kaynak sağlama ve otomatik sonlandırma yoluyla hesaplama kaynaklarını yönetir. Bir sıcak havuz, anında kullanıma hazır, önceden başlatılmış az sayıda örnek tutar. Bir soğuk havuz, talep sıcak havuzu aştığında spot/öncelikli örneklerden ek kapasite sağlar. Bir iş düzenleyici, işi mevcut örneklere yönlendirir, ilerlemeyi izler, spot kesintilerinde yeniden denemeleri yönetir ve kuyruk boşaldığında ölçek küçültmeyi tetikler. Bu desen, soğuk başlatmanın (kapsayıcı çekme + model yükleme) 3-10 dakika sürebildiği GPU iş yükleri için özellikle kritiktir.
Sistem, gelen iş isteklerini arabelleğe alan bir iş kuyruğu (SQS, Redis veya özel) üzerine kuruludur. Bir ölçeklendirme denetleyicisi, kuyruk derinliğini izler ve örnekleri önce sıcak havuzdan, ardından soğuk havuzdan (spot instances) sağlar. Her bir çalışan örnek, kuyruktan işleri çeker, iş yükünü (kodlama, eğitim, inference) yürütür, tamamlandığını bildirir ve havuza geri döner veya sonlandırılır. Bir denetim noktası yöneticisi, ara durumu S3'e kaydederek spot kesintilerini yönetir ve işlerin farklı bir örnekte baştan başlamadan devam etmesini sağlar.
| Katman | Teknolojiler |
|---|---|
| Hesaplama | AWS EC2 Spot (G5/P4), GCP Preemptible (A2/L4), RunPod Serverless, Modal |
| Orkestrasyon | Kubernetes (Karpenter for autoscaling), AWS Batch, custom job orchestrator |
| İş Kuyruğu | AWS SQS, BullMQ (Redis), Temporal, Celery |
| Depolama | S3 (checkpoints, model artifacts), NVMe (model cache), EFS (shared workspace) |
| İzleme | CloudWatch/Prometheus (queue depth, instance utilization, job latency), custom cost dashboards |
| Ne Zaman Kullanılmalı | Ne Zaman Kaçınılmalı |
|---|---|
| İş yükü ani artışlar gösteriyorsa — pik talep ortalama talebin 5 katı veya daha fazlasıysa | Trafik sabit ve öngörülebilirse — doğru boyutlandırılmış ayrılmış örnekler daha ucuzdur |
| Boşta dururken maliyetli olan GPU/yüksek hesaplama işleri | İş yükü sunucusuz (Lambda) için uygun, hafif CPU işleme ise |
| İşler, soğuk havuz kaynak sağlaması için 1-5 dakikalık soğuk başlatmaya tahammül edebiliyorsa | Saniye altı iş başlatma gecikmesi gerekiyorsa — sürekli açık altyapıya ihtiyacınız var demektir |
| Maliyet optimizasyonu birincil endişe kaynağı ise ve spot fiyatlandırma %60-90 tasarruf sunuyorsa | Spot kesintisi, denetim noktası kaydının gideremeyeceği veri kaybına neden olacaksa |
MW, açma-kapama ölçeklendirmesini "iş başına maliyet" perspektifiyle tasarlar — farklı ölçeklendirme stratejileri genelinde bir iş birimini (bir video, bir eğitim çalıştırması, bir toplu çıkarım) işlemenin toplam maliyetini modeller ve gerekli gecikme SLA'sında maliyeti en aza indiren stratejiyi seçeriz. Uygulamalarımız, iş başına maliyeti, altyapı kullanımını ve spot tasarruflarını gösteren gerçek zamanlı maliyet panolarını içerir. Video işleme maliyetlerini ayrılmış örneklere kıyasla %70 azaltan açma-kapama GPU altyapıları ve 4 saatlik bir eğitim çalıştırması için 64 GPU sağlayan ve bunları otomatik olarak serbest bırakan ML eğitim kümeleri inşa ettik.
Güvenlik, lansmandan sonra eklediğiniz bir özellik değildir. O, mimari bir özelliktir — sistem ya bunun için tasarlanmıştır ya da tasarlanmamıştır.
Parti yoğun veya periyodik iş yüklerine sahip MicrocosmWorks müşterileri, açma-kapama ölçeklendirmeyi uyguladıktan sonra genellikle %60-80 oranında bulut maliyeti düşüşü görür, çünkü bilgi işlem kaynakları 7/24 çalışmak yerine yalnızca aktif işlem pencerelerinde çalışır. Ölçeklendirme politikalarını gerçek kullanım telemetrisine göre tasarlarız; örneğin, günde 4 saat çalışan bir veri işleme hattı, tam 24 saat yerine yalnızca bu 4 saatin ücretini öder. Mimarlarımız, herhangi bir uygulamanın başlamasından önce kesin tasarrufları tahmin etmek için keşif aşamasında iş yükü modellerinizi analiz eder.
Soğuk başlangıç süreleri, önceden ısıtılmış düğüm havuzlarındaki kapsayıcılı uygulamalar için 2-3 saniyeden, özel GPU örnekleri veya büyük model yüklemesi gerektiren iş yükleri için 5-10 dakikaya kadar değişir ve MicrocosmWorks bu gecikmeyi en aza indirmek için çeşitli teknikler kullanır. Geçmiş trafik modellerini ve planlanmış olayları kullanarak beklenen talepten önce kaynakları devreye sokan öngörücü ölçeklendirme uyguluyoruz ve gecikmeye duyarlı iş yükleri için kapsayıcı görüntüsü önceden çekme (pre-pulling) ve sıcak havuz rezervasyonları kullanıyoruz. Hiçbir soğuk başlangıcı tolere edemeyen uygulamalar için, talep geldiğinde agresif bir şekilde ölçeklenen minimum sıcak bir taban hattı sürdürüyoruz.
MicrocosmWorks, kuyruk derinliği, CPU kullanımı veya özel uygulama metrikleri tarafından tetiklenen agresif ölçeklendirme politikalarına sahip reaktif otomatik ölçeklendirme uygular ve bu politikalar, aşırı yüklenmeyi (thrashing) önlemek için bekleme sürelerini içeren daha kademeli ölçeklendirme politikalarıyla birleştirilir. Ölçeklendirme olayları sırasında aşırı sağlama (over-provisioning) tamponları yapılandırırız, böylece sistem talebi tek tek örneklerle kovalamak yerine sürekli büyümeyi tahmin eder. Flaş satışlar veya viral olaylar gibi gerçekten öngörülemeyen ani artışlar için, pazarlama veya operasyon takviminizden gelen olay odaklı tetikleyicileri kullanarak kapasiteyi önceden sağlarız.
MicrocosmWorks, boşta kalma sürelerinde bilgi işlemi sıfıra ölçeklendirirken depolamayı kalıcı ve anında erişilebilir tutan Aurora Serverless, Neon veya PlanetScale gibi sunucusuz veritabanı tekliflerini kullanarak veritabanlarına açma-kapama ölçeklendirmesi uygular. Sunucusuz veritabanlarını kullanamayan durum bilgisi olan (stateful) iş yükleri için, sorgu yüküne göre replikalar ekleyip çıkaran ve minimum bir birincil örneği her zaman çalışır durumda tutan okuma replikası ölçeklendirmesi uyguluyoruz. Bu hibrit yaklaşım, istemcilere veri katmanları için ölçeklendirmenin maliyet faydalarını, kapatma ve yeniden başlatma döngüleri sırasında veritabanı durumunu yönetmenin karmaşıklığı olmadan sunar.
MicrocosmWorks, Grafana veya Datadog panolarını kullanarak örnek sayılarını, ölçeklendirme olayı gecikmesini, başarısız ölçeklendirme girişimlerini ve istenen ile gerçek kapasite arasındaki farkı gerçek zamanlı olarak izleyen kapsamlı ölçeklendirme gözlemlenebilirliği dağıtır. Ölçeklendirme hataları, ölçeklendirme tavanının çok düşük olduğunu düşündüren sürekli yüksek kullanım ve kontrol dışı ölçeklendirmeyi gösteren maliyet anormallikleri için çok kanallı uyarılar yapılandırırız. Runbooklarımız, bulut sağlayıcısı örnek limitlerine ulaşma veya belirli kullanılabilirlik bölgelerinde yetersiz kapasite hatalarıyla karşılaşma gibi yaygın hata modları için otomatik düzeltmeleri içerir.