MicrocosmWorksDijital Kozmosu Yenilikçi ve Mimari Olarak Tasarlamak
Hakkındaİletişim
MicrocosmWorksDijital Kozmosu Yenilikçi ve Mimari Olarak İnşa Etmek

Önemli BT çözümleri sunuyoruz. Teknoloji, güvenlik ve işletmelerin güvenilir, yenilikçi BT altyapısı ile büyümesine yardımcı olmaktan tutkuluyuz.

[email protected]
+91 7011868196
New Delhi, India

AI Büyüme Merkezi

AI MerkeziStartup İnovasyonuKurumsal Hızlandırıcı

Çözümler

Tüm ÇözümlerSağlık ve Fitness UygulamalarıAI Video PlatformuAI Ajan Geliştirme

Kaynaklar

ÖngörülerSektör RehberleriKullanım Durumu ŞablonlarıMimari KalıplarVaka Çalışmaları

Şirket

HakkımızdaİletişimÇalışmalarımız

Hizmetler

Dijital DanışmanlıkBulut AltyapısıSaaS GeliştirmeYapay Zeka GeliştirmeVideo Teknolojisi
ERP GeliştirmeZoho ÖzelleştirmeOdoo GeliştirmeSalesforce EntegrasyonuÖzel CRM Geliştirme
QuickBooks EntegrasyonuIoT ÇözümleriBlokzincir Geliştirme
Siber Güvenlik DanışmanlığıIT Desteği - L3

© 2026 MicrocosmWorks. Tüm hakları saklıdır.

Gizlilik PolitikasıHizmet Şartları
Mimari Desenlere Geri Dön
InfrastructureAdvanced

Açma-Kapama Ölçeklendirme Mimarisi

Boşta duran GPU'lar için ödeme yapmayın. Hesaplama kaynaklarını tam zamanında sağlayın, iş yükünü işleyin ve sonlandırın — böylece sermaye giderini iş başına bir işletme maliyetine dönüştürün.

June 18, 2026
|
2 topics covered
Bu Mimariyi Tartışın
on-off-scaling-architecture.webp
Infrastructure
Category
Advanced
Complexity
AI/ML, Medya ve Eğlence
Industries
2+
Technologies

Ne Zaman İhtiyaç Duyarsınız

İş yükünüz ani artışlar gösteriyorsa — içerik yüklendiğinde ani artış gösteren video kodlama işleri, 4 saat boyunca 8 GPU gerektiren, ardından hiçbir şey gerektirmeyen ML eğitimleri, iş olayları tarafından tetiklenen toplu çıkarım işleri veya gece boyunca çalışan render boru hatları. Ya aşırı kaynak sağlanmış durumdasınız (zamanın %80'inde boşta duran kaynaklar için ödeme yapıyorsunuz) ya da yetersiz kaynak sağlanmış durumdasınız (yoğun zamanlarda işler saatlerce kuyrukta bekliyor). Tam olarak ihtiyacınız olan hesaplama kaynağını, ihtiyaç duyduğunuzda sağlayan ve iş tamamlandığında serbest bırakan bir mimariye ihtiyacınız var — GPU iş yükleri için "sıfıra ölçeklemeyi" pratik olmayan hale getiren soğuk başlangıç ​​cezasını ortadan kaldırarak.

Related Architecture Patterns

Explore more design patterns and system architectures

cloud-native-infrastructure.webp
Infrastructure

Buluta Özel Altyapı

Uygulama kodu gibi sürümlenen, test edilen ve dağıtılan altyapı — çünkü platformunuz, temelindeki kadar güvenilirdir.

EnterpriseView
security-first-architecture.webp

Bu Mimarinin Uygulanmasında Yardıma İhtiyacınız Var mı?

Mimarlarımız, bu deseni kullanarak belirli gereksinimleriniz için sistemler tasarlamanıza ve oluşturmanıza yardımcı olabilir.

İletişime Geçin

Desenlere Genel Bakış

Açma-kapama ölçeklendirme mimarisi, sıcak/soğuk havuzlama, iş kuyruğu odaklı kaynak sağlama ve otomatik sonlandırma yoluyla hesaplama kaynaklarını yönetir. Bir sıcak havuz, anında kullanıma hazır, önceden başlatılmış az sayıda örnek tutar. Bir soğuk havuz, talep sıcak havuzu aştığında spot/öncelikli örneklerden ek kapasite sağlar. Bir iş düzenleyici, işi mevcut örneklere yönlendirir, ilerlemeyi izler, spot kesintilerinde yeniden denemeleri yönetir ve kuyruk boşaldığında ölçek küçültmeyi tetikler. Bu desen, soğuk başlatmanın (kapsayıcı çekme + model yükleme) 3-10 dakika sürebildiği GPU iş yükleri için özellikle kritiktir.

Referans Mimari

Sistem, gelen iş isteklerini arabelleğe alan bir iş kuyruğu (SQS, Redis veya özel) üzerine kuruludur. Bir ölçeklendirme denetleyicisi, kuyruk derinliğini izler ve örnekleri önce sıcak havuzdan, ardından soğuk havuzdan (spot instances) sağlar. Her bir çalışan örnek, kuyruktan işleri çeker, iş yükünü (kodlama, eğitim, inference) yürütür, tamamlandığını bildirir ve havuza geri döner veya sonlandırılır. Bir denetim noktası yöneticisi, ara durumu S3'e kaydederek spot kesintilerini yönetir ve işlerin farklı bir örnekte baştan başlamadan devam etmesini sağlar.

Temel Bileşenler
  • İş Kuyruğu ve Zamanlayıcı: İş türü başına yapılandırılabilir eşzamanlılık limitlerine sahip öncelikli iş kuyruğu. Gecikmeli yürütmeyi, başarısız işler için dead-letter kuyruklarını ve öncelikli şeritleri (express işler sıcak havuz örneklerini alır, standart işler soğuk havuzu kullanır) destekler. Karmaşık iş akışları için AWS SQS, Redis üzerinde BullMQ veya Temporal
  • Sıcak Havuz Yöneticisi: GPU belleğine yüklenmiş modeller, çalışan kapsayıcılar ve sağlık kontrolleri geçmiş N adet önceden başlatılmış örnek tutar. Örnekler şu döngüden geçer: boşta → atanmış → işleniyor → boşta. Havuz boyutu günün saatine göre yapılandırılabilir (iş saatlerinde daha büyük, gece daha küçük) ve geçmiş talep desenlerine göre ayarlanabilir.
  • Soğuk Havuz Sağlayıcı: Spot örneklerinden (AWS), öncelikli VM'lerden (GCP) veya sunucusuz GPU sağlayıcılarından (RunPod, Modal, Salad) ek kapasite sağlar. İşleri mevcut örneklere taşıyarak spot kesintisi bildirimlerini yönetir. Spot kullanılabilirliğini en üst düzeye çıkarmak için çeşitlendirilmiş bir örnek türü stratejisi (birden fazla GPU türü, birden fazla AZ) kullanır.
  • Denetim Noktası ve Kurtarma: Uzun süren işler (ML training, büyük video encoding) için, periyodik denetim noktası kaydı ara durumu S3'e kaydeder. Spot kesintisinde, iş yeniden kuyruğa alınır ve son denetim noktasından devam eder. Kısa süreli işler (< 10 dk) için, denetim noktası kaydının maliyeti yeniden başlatma maliyetini aşar — bu işler basitçe baştan dener.

Tasarım Kararları ve Takaslar

Sıcak Havuz Boyutu
Sıcak havuz, maliyet (boşta duran örnekler için ödeme) ve gecikme süresi (ilk iş için soğuk başlatma süresi) arasında bir denge noktasıdır. MW, sıcak havuzları kuyruk varış desenlerine göre boyutlandırır: iş saatlerinde işler sürekli gelirse, sıcak havuz ortalama işlem hacmini karşılar; soğuk havuz ise zirveleri karşılar. İşler öngörülemeyen ani artışlarla geliyorsa, daha küçük bir sıcak havuz tutarız ve soğuk havuz kaynak sağlarken ilk ani artış işleri için soğuk başlatma gecikmesini kabul ederiz.
Spot Instances ve Sunucusuz GPU (RunPod/Modal)
Spot instances saat başına daha ucuzdur ancak kaynak sağlama, kesinti yönetimi ve örnek yaşam döngüsünü sizin yönetmenizi gerektirir. Sunucusuz GPU sağlayıcıları (RunPod Serverless, Modal, Banana) kaynak sağlamayı yönetir ve saniye başına faturalandırma sunar, ancak hesaplama saniyesi başına daha yüksek bir ücrete sahiptir. MW, öngörülebilir, uzun süreli iş yükleri (>30 dk) için spot instances, ve kaynak sağlama yükünün baskın olacağı kısa, ani artış gösteren işler (<10 dk) için sunucusuz GPU kullanır.
Ölçek Küçültme Agresifliği
Çok hızlı ölçek küçültürseniz, bir sonraki iş geldiğinde soğuk başlatma cezaları ödersiniz. Çok yavaş ölçek küçültürseniz, boşta duran örnekler için ödeme yaparsınız. MW, "bozulmalı soğuma" stratejisi uygular: kuyruk boşaldıktan sonra, örnekler yapılandırılabilir bir süre boyunca (varsayılan: 10 dakika) sıcak kalır. Yeni işler gelmezse, örnekler kademeli olarak ölçek küçültülür (10. dakikada %50'si, 30. dakikada kalanı). Soğuma süresi ayarlanabilir ve işlerin geliş zamanı istatistiklerine göre otomatik olarak ayarlanır.
GPU Model Yükleme Optimizasyonu
ML inference için, soğuk başlatma darboğazı genellikle kapsayıcı başlangıcı değil, model yüklemedir (S3'ten indirme + GPU belleğine yükleme). MW bunu optimize eder: (a) modelleri kapsayıcı görüntülerine önceden dahil ederek (küçük modeller için), (b) model önbellekleme ile örnekler arasında paylaşılan NVMe depolama kullanarak (büyük modeller için) ve (c) sıcak havuz örneklerini GPU belleğine önceden yüklenmiş modellerle tutarak.

Teknoloji Seçimleri

KatmanTeknolojiler
HesaplamaAWS EC2 Spot (G5/P4), GCP Preemptible (A2/L4), RunPod Serverless, Modal
OrkestrasyonKubernetes (Karpenter for autoscaling), AWS Batch, custom job orchestrator
İş KuyruğuAWS SQS, BullMQ (Redis), Temporal, Celery
DepolamaS3 (checkpoints, model artifacts), NVMe (model cache), EFS (shared workspace)
İzlemeCloudWatch/Prometheus (queue depth, instance utilization, job latency), custom cost dashboards

Ne Zaman Kullanılmalı / Ne Zaman Kaçınılmalı

Ne Zaman KullanılmalıNe Zaman Kaçınılmalı
İş yükü ani artışlar gösteriyorsa — pik talep ortalama talebin 5 katı veya daha fazlasıysaTrafik sabit ve öngörülebilirse — doğru boyutlandırılmış ayrılmış örnekler daha ucuzdur
Boşta dururken maliyetli olan GPU/yüksek hesaplama işleriİş yükü sunucusuz (Lambda) için uygun, hafif CPU işleme ise
İşler, soğuk havuz kaynak sağlaması için 1-5 dakikalık soğuk başlatmaya tahammül edebiliyorsaSaniye altı iş başlatma gecikmesi gerekiyorsa — sürekli açık altyapıya ihtiyacınız var demektir
Maliyet optimizasyonu birincil endişe kaynağı ise ve spot fiyatlandırma %60-90 tasarruf sunuyorsaSpot kesintisi, denetim noktası kaydının gideremeyeceği veri kaybına neden olacaksa

Yaklaşımımız

MW, açma-kapama ölçeklendirmesini "iş başına maliyet" perspektifiyle tasarlar — farklı ölçeklendirme stratejileri genelinde bir iş birimini (bir video, bir eğitim çalıştırması, bir toplu çıkarım) işlemenin toplam maliyetini modeller ve gerekli gecikme SLA'sında maliyeti en aza indiren stratejiyi seçeriz. Uygulamalarımız, iş başına maliyeti, altyapı kullanımını ve spot tasarruflarını gösteren gerçek zamanlı maliyet panolarını içerir. Video işleme maliyetlerini ayrılmış örneklere kıyasla %70 azaltan açma-kapama GPU altyapıları ve 4 saatlik bir eğitim çalıştırması için 64 GPU sağlayan ve bunları otomatik olarak serbest bırakan ML eğitim kümeleri inşa ettik.

İlgili Taslaklar

  • AI İş Yükleri için GPU Küme Orkestrasyonu — ML eğitimi için GPU sağlama ve orkestrasyon
  • Gerçek Zamanlı AI Video Gözetim Sistemi — Video analiz olayları için ani çıkarım
  • Canlı Spor Öne Çıkan Anları Oluşturucu — Ani hesaplama ile olay odaklı video işleme

İlgili Vaka Çalışmaları

  • Açma-Kapama Deseniyle Video İşleme — Video kodlama iş yükleri için sıcak/soğuk havuzlarla GPU sağlama
  • Video Kodlama Platformu — Otomatik ölçeklenen çalışan havuzlarıyla sunucusuz ve spot tabanlı kodlama
Related Technologies
Bulut ÇözümleriAI Geliştirme
Infrastructure

Önce Güvenlik Mimarisi

Güvenlik, lansmandan sonra eklediğiniz bir özellik değildir. O, mimari bir özelliktir — sistem ya bunun için tasarlanmıştır ya da tasarlanmamıştır.

EnterpriseView
serverless-first-architecture.webp
Infrastructure

Sunucusuz Odaklı Mimari

Kullandığınız kadar ödeyin, kullanmadığınızda sıfıra ölçeklendirin ve sunucuları tamamen yönetmeyi bırakın — ancak ekonominin ne zaman işlemeyi durduracağını bilin.

AdvancedView

Sıkça Sorulan Sorular

Parti yoğun veya periyodik iş yüklerine sahip MicrocosmWorks müşterileri, açma-kapama ölçeklendirmeyi uyguladıktan sonra genellikle %60-80 oranında bulut maliyeti düşüşü görür, çünkü bilgi işlem kaynakları 7/24 çalışmak yerine yalnızca aktif işlem pencerelerinde çalışır. Ölçeklendirme politikalarını gerçek kullanım telemetrisine göre tasarlarız; örneğin, günde 4 saat çalışan bir veri işleme hattı, tam 24 saat yerine yalnızca bu 4 saatin ücretini öder. Mimarlarımız, herhangi bir uygulamanın başlamasından önce kesin tasarrufları tahmin etmek için keşif aşamasında iş yükü modellerinizi analiz eder.

Soğuk başlangıç süreleri, önceden ısıtılmış düğüm havuzlarındaki kapsayıcılı uygulamalar için 2-3 saniyeden, özel GPU örnekleri veya büyük model yüklemesi gerektiren iş yükleri için 5-10 dakikaya kadar değişir ve MicrocosmWorks bu gecikmeyi en aza indirmek için çeşitli teknikler kullanır. Geçmiş trafik modellerini ve planlanmış olayları kullanarak beklenen talepten önce kaynakları devreye sokan öngörücü ölçeklendirme uyguluyoruz ve gecikmeye duyarlı iş yükleri için kapsayıcı görüntüsü önceden çekme (pre-pulling) ve sıcak havuz rezervasyonları kullanıyoruz. Hiçbir soğuk başlangıcı tolere edemeyen uygulamalar için, talep geldiğinde agresif bir şekilde ölçeklenen minimum sıcak bir taban hattı sürdürüyoruz.

MicrocosmWorks, kuyruk derinliği, CPU kullanımı veya özel uygulama metrikleri tarafından tetiklenen agresif ölçeklendirme politikalarına sahip reaktif otomatik ölçeklendirme uygular ve bu politikalar, aşırı yüklenmeyi (thrashing) önlemek için bekleme sürelerini içeren daha kademeli ölçeklendirme politikalarıyla birleştirilir. Ölçeklendirme olayları sırasında aşırı sağlama (over-provisioning) tamponları yapılandırırız, böylece sistem talebi tek tek örneklerle kovalamak yerine sürekli büyümeyi tahmin eder. Flaş satışlar veya viral olaylar gibi gerçekten öngörülemeyen ani artışlar için, pazarlama veya operasyon takviminizden gelen olay odaklı tetikleyicileri kullanarak kapasiteyi önceden sağlarız.

MicrocosmWorks, boşta kalma sürelerinde bilgi işlemi sıfıra ölçeklendirirken depolamayı kalıcı ve anında erişilebilir tutan Aurora Serverless, Neon veya PlanetScale gibi sunucusuz veritabanı tekliflerini kullanarak veritabanlarına açma-kapama ölçeklendirmesi uygular. Sunucusuz veritabanlarını kullanamayan durum bilgisi olan (stateful) iş yükleri için, sorgu yüküne göre replikalar ekleyip çıkaran ve minimum bir birincil örneği her zaman çalışır durumda tutan okuma replikası ölçeklendirmesi uyguluyoruz. Bu hibrit yaklaşım, istemcilere veri katmanları için ölçeklendirmenin maliyet faydalarını, kapatma ve yeniden başlatma döngüleri sırasında veritabanı durumunu yönetmenin karmaşıklığı olmadan sunar.

MicrocosmWorks, Grafana veya Datadog panolarını kullanarak örnek sayılarını, ölçeklendirme olayı gecikmesini, başarısız ölçeklendirme girişimlerini ve istenen ile gerçek kapasite arasındaki farkı gerçek zamanlı olarak izleyen kapsamlı ölçeklendirme gözlemlenebilirliği dağıtır. Ölçeklendirme hataları, ölçeklendirme tavanının çok düşük olduğunu düşündüren sürekli yüksek kullanım ve kontrol dışı ölçeklendirmeyi gösteren maliyet anormallikleri için çok kanallı uyarılar yapılandırırız. Runbooklarımız, bulut sağlayıcısı örnek limitlerine ulaşma veya belirli kullanılabilirlik bölgelerinde yetersiz kapasite hatalarıyla karşılaşma gibi yaygın hata modları için otomatik düzeltmeleri içerir.