MicrocosmWorksDijital Kozmosu Yenilikçi ve Mimari Olarak Tasarlamak
Hakkındaİletişim
MicrocosmWorksDijital Kozmosu Yenilikçi ve Mimari Olarak İnşa Etmek

Önemli BT çözümleri sunuyoruz. Teknoloji, güvenlik ve işletmelerin güvenilir, yenilikçi BT altyapısı ile büyümesine yardımcı olmaktan tutkuluyuz.

[email protected]
+91 7011868196
New Delhi, India

AI Büyüme Merkezi

AI MerkeziStartup İnovasyonuKurumsal Hızlandırıcı

Çözümler

Tüm ÇözümlerSağlık ve Fitness UygulamalarıAI Video PlatformuAI Ajan Geliştirme

Kaynaklar

ÖngörülerSektör RehberleriKullanım Durumu ŞablonlarıMimari KalıplarVaka Çalışmaları

Şirket

HakkımızdaİletişimÇalışmalarımız

Hizmetler

Dijital DanışmanlıkBulut AltyapısıSaaS GeliştirmeYapay Zeka GeliştirmeVideo Teknolojisi
ERP GeliştirmeZoho ÖzelleştirmeOdoo GeliştirmeSalesforce EntegrasyonuÖzel CRM Geliştirme
QuickBooks EntegrasyonuIoT ÇözümleriBlokzincir Geliştirme
Siber Güvenlik DanışmanlığıIT Desteği - L3

© 2026 MicrocosmWorks. Tüm hakları saklıdır.

Gizlilik PolitikasıHizmet Şartları
Mimari Desenlere Geri Dön
InfrastructureAdvanced

Açma/Kapama Ölçekleme Mimarisi

Boşta duran GPU'lar için ödeme yapmayın. Hesaplama kaynaklarını tam zamanında sağlayın, iş yükünü işleyin ve ardından kaldırın — sermaye harcamasını iş başına bir işletme maliyetine dönüştürün.

June 22, 2026
|
2 topics covered
Bu Mimariyi Tartışın
on-off-scaling-architecture.webp
Infrastructure
Category
Advanced
Complexity
AI/ML, Medya ve Eğlence
Industries
2+
Technologies

Ne Zaman İhtiyacınız Olur

İş yükünüz ani artışlar gösteriyorsa — içerik yüklendiğinde ani yükselen video kodlama işleri, 4 saat boyunca 8 GPU'ya ihtiyaç duyup sonra duran ML eğitim çalıştırmaları, iş olaylarıyla tetiklenen toplu çıkarım işleri veya gece boyunca çalışan render işlem hatları. Ya fazla kaynak sağlıyorsunuzdur (zamanın %80'inde boşta duran kaynaklar için ödeme yapıyorsunuzdur) ya da yetersiz kaynak sağlıyorsunuzdur (yoğun zamanlarda işler saatlerce kuyrukta bekler). Tam olarak ihtiyacınız olan hesaplama gücünü, ihtiyacınız olduğunda sağlayan ve iş tamamlandığında serbest bırakan bir mimariye ihtiyacınız var — "sıfıra ölçeklemeyi" GPU iş yükleri için pratik olmaktan çıkaran soğuk başlangıç cezası yaşamadan.

Related Architecture Patterns

Explore more design patterns and system architectures

cloud-native-infrastructure.webp
Infrastructure

Buluta Özel Altyapı

Uygulama kodu gibi sürümlenen, test edilen ve dağıtılan altyapı — çünkü platformunuz, temelindeki kadar güvenilirdir.

EnterpriseView
security-first-architecture.webp

Bu Mimarinin Uygulanmasında Yardıma İhtiyacınız Var mı?

Mimarlarımız, bu deseni kullanarak belirli gereksinimleriniz için sistemler tasarlamanıza ve oluşturmanıza yardımcı olabilir.

İletişime Geçin

Desen Genel Bakışı

Açma/kapama ölçekleme mimarisi, sıcak/soğuk havuzlama, iş kuyruğu odaklı kaynak sağlama ve otomatik kaldırma yoluyla hesaplama kaynaklarını yönetir. Bir sıcak havuz, anında kullanıma hazır, önceden başlatılmış az sayıda örnek tutar. Bir soğuk havuz, talep sıcak havuzu aştığında spot/öncelikli örneklerden ek kapasite sağlar. Bir iş düzenleyici, işi uygun örneklere yönlendirir, ilerlemeyi izler, spot kesintilerinde yeniden denemeleri yönetir ve kuyruk boşaldığında ölçeklendirmeyi aşağı yönlü tetikler. Bu desen, soğuk başlangıcın (kapsayıcı çekme + model yükleme) 3-10 dakika sürebildiği GPU iş yükleri için özellikle kritiktir.

Referans Mimari

Sistem, gelen iş isteklerini arabelleğe alan bir iş kuyruğu (SQS, Redis veya özel) üzerine kuruludur. Bir ölçeklendirme denetleyicisi, kuyruk derinliğini izler ve önce sıcak havuzdan, ardından soğuk havuzdan (spot örnekler) örnekler sağlar. Her bir çalışan örnek, kuyruktan işleri çeker, iş yükünü (kodlama, eğitim, inference) yürütür, tamamlandığını bildirir ve havuza geri döner veya sonlandırılır. Bir kontrol noktası yöneticisi, ara durumu S3'e kaydederek spot kesintilerini yönetir ve işlerin farklı bir örnekte baştan başlamadan devam etmesini sağlar.

Temel Bileşenler
  • İş Kuyruğu ve Zamanlayıcı: İş türüne göre yapılandırılabilir eşzamanlılık limitlerine sahip öncelikli iş kuyruğu. Gecikmeli yürütmeyi, başarısız işler için dead-letter kuyruklarını ve öncelik şeritlerini (ekspres işler sıcak havuz örneklerini alır, standart işler soğuk havuzu kullanır) destekler. Karmaşık iş akışları için AWS SQS, Redis üzerinde BullMQ veya Temporal
  • Sıcak Havuz Yöneticisi: GPU belleğinde yüklü modeller, çalışan kapsayıcılar ve başarılı sağlık kontrolleri ile N adet önceden başlatılmış örnek tutar. Örnekler şu döngüden geçer: boşta → atanmış → işleniyor → boşta. Havuz boyutu günün saatine göre (iş saatlerinde daha büyük, gece daha küçük) yapılandırılabilir ve geçmiş talep modellerine göre ayarlanabilir
  • Soğuk Havuz Sağlayıcı: Spot örneklerinden (AWS), öncelikli VM'lerden (GCP) veya sunucusuz GPU sağlayıcılarından (RunPod, Modal, Salad) ek kapasite sağlar. Spot kesintisi bildirimlerini, işleri mevcut örneklere taşıyarak yönetir. Spot kullanılabilirliğini en üst düzeye çıkarmak için çeşitlendirilmiş bir örnek türü stratejisi (birden fazla GPU türü, birden fazla AZ) kullanır
  • Kontrol Noktası ve Kurtarma: Uzun süreli işler (ML eğitimi, büyük video kodlama) için periyodik kontrol noktası oluşturma, ara durumu S3'e kaydeder. Spot kesintisi durumunda, iş yeniden kuyruğa alınır ve son kontrol noktasından devam eder. Kısa işler (< 10 dakika) için kontrol noktası oluşturma maliyeti yeniden başlatma maliyetini aşar — bu işler basitçe sıfırdan yeniden dener

Tasarım Kararları ve Takaslar

Sıcak Havuz Boyutu
Sıcak havuz, maliyet (boşta duran örnekler için ödeme) ve gecikme (ilk iş için soğuk başlangıç süresi) arasında bir takastır. MW, sıcak havuz boyutlarını kuyruk geliş desenlerine göre belirler: eğer işler mesai saatlerinde sürekli geliyorsa, sıcak havuz ortalama işlem hacmini karşılar; soğuk havuz ise zirveleri karşılar. İşler tahmin edilemeyen ani artışlarla geliyorsa, daha küçük bir sıcak havuz tutarız ve soğuk havuz kaynak sağlarken ilk ani işler için soğuk başlangıç gecikmesini kabul ederiz.
Spot Örnekleri vs. Sunucusuz GPU (RunPod/Modal)
Spot örnekleri saat başına daha ucuzdur ancak kaynak sağlama, kesinti yönetimi ve örnek yaşam döngüsünü sizin yönetmenizi gerektirir. Sunucusuz GPU sağlayıcıları (RunPod Serverless, Modal, Banana) kaynak sağlamayı yönetir ve saniye başına faturalandırma sunar ancak hesaplama saniyesi başına daha yüksek bir ücrete sahiptir. MW, tahmin edilebilir, uzun süreli iş yükleri (>30 dak.) için spot örneklerini ve kaynak sağlama yükünün baskın olacağı kısa, ani işler (<10 dak.) için sunucusuz GPU'yu kullanır.
Aşağı Ölçeklendirme Agresifliği
Çok hızlı aşağı ölçeklendirirseniz, bir sonraki iş geldiğinde soğuk başlangıç cezaları ödersiniz. Çok yavaş aşağı ölçeklendirirseniz, boşta duran örnekler için ödeme yaparsınız. MW, bir "bozulma ile bekleme süresi" stratejisi uygular: kuyruk boşaldıktan sonra, örnekler yapılandırılabilir bir süre (varsayılan: 10 dakika) sıcak kalır. Yeni iş gelmezse, örnekler aşamalı olarak aşağı ölçeklenir (10 dakikada %50, 30 dakikada kalanlar). Bekleme süresi ayarlanabilir ve işler arası geliş süresi istatistiklerine göre otomatik olarak ayarlanır.
GPU Model Yükleme Optimizasyonu
ML çıkarımı için soğuk başlangıç darboğazı genellikle kapsayıcı başlatma değil, model yüklemedir (S3'ten indirme + GPU belleğine yükleme). MW bunu şu yollarla optimize eder: (a) modelleri kapsayıcı görüntülerine önceden dahil ederek (küçük modeller için), (b) model önbellekleme ile örnekler arasında paylaşılan NVMe depolama kullanarak (büyük modeller için) ve (c) modelleri GPU belleğinde önceden yüklü sıcak havuz örneklerini tutarak.

Teknoloji Seçimleri

KatmanTeknolojiler
HesaplamaAWS EC2 Spot (G5/P4), GCP Preemptible (A2/L4), RunPod Serverless, Modal
OrkestrasyonKubernetes (otomatik ölçeklendirme için Karpenter), AWS Batch, özel iş düzenleyici
İş KuyruğuAWS SQS, BullMQ (Redis), Temporal, Celery
DepolamaS3 (kontrol noktaları, model artefaktları), NVMe (model önbelleği), EFS (paylaşımlı çalışma alanı)
İzlemeCloudWatch/Prometheus (kuyruk derinliği, örnek kullanımı, iş gecikmesi), özel maliyet panoları

Ne Zaman Kullanmalı / Ne Zaman Kaçınmalı

Ne Zaman KullanmalıNe Zaman Kaçınmalı
İş yükü ani artışlar gösteriyorsa — yoğun talep ortalama talebin 5 katı veya daha fazlasıysaTrafik sabit ve tahmin edilebilir ise — doğru boyutlandırılmış ayrılmış örnekler daha ucuzdur
Boşta dururken maliyetli olan GPU/yüksek hesaplama işleri içinİş yükü sunucusuz (Lambda) platformlara uygun hafif bir CPU işleme ise
İşler, soğuk havuz sağlaması için 1-5 dakikalık soğuk başlangıca tahammül edebiliyorsaSaniye altı iş başlatma gecikmesi gerekiyorsa — sürekli açık altyapıya ihtiyacınız var demektir
Maliyet optimizasyonu birincil endişe ise ve spot fiyatlandırma %60-90 tasarruf sağlıyorsaSpot kesintisi, kontrol noktası oluşturmanın engelleyemeyeceği veri kaybına neden oluyorsa

Yaklaşımımız

MW, açma/kapama ölçeklendirmeyi "iş başına maliyet" merceğinden tasarlar — farklı ölçekleme stratejileri arasında bir iş biriminin (bir video, bir eğitim çalıştırması, bir toplu çıkarım) toplam işleme maliyetini modeller ve gerekli gecikme SLA'sında maliyeti en aza indiren stratejiyi seçeriz. Uygulamalarımız, iş başına maliyeti, altyapı kullanımını ve spot tasarruflarını gösteren gerçek zamanlı maliyet panolarını içerir. Ayrılmış örneklere kıyasla video işleme maliyetlerini %70 oranında azaltan açma/kapama GPU altyapısı ve 4 saatlik bir eğitim çalıştırması için 64 GPU sağlayan ve bunları otomatik olarak serbest bırakan ML eğitim kümeleri inşa ettik.

İlgili Planlar

  • AI İş Yükleri için GPU Kümesi Orkestrasyonu — ML eğitimi için GPU sağlama ve orkestrasyonu
  • Gerçek Zamanlı AI Video Gözetim Sistemi — Video analiz olayları için ani çıkarım
  • Canlı Spor Önemli Anlar Oluşturucu — Ani hesaplama ile olay odaklı video işleme

İlgili Vaka Çalışmaları

  • Açma/Kapama Deseniyle Video İşleme — Video kodlama iş yükleri için sıcak/soğuk havuzlarla GPU sağlama
  • Video Kodlama Platformu — Otomatik ölçeklenen çalışan havuzlarıyla sunucusuz ve spot tabanlı kodlama
Related Technologies
Bulut ÇözümleriYapay Zeka Geliştirme
Infrastructure

Önce Güvenlik Mimarisi

Güvenlik, lansmandan sonra eklediğiniz bir özellik değildir. O, mimari bir özelliktir — sistem ya bunun için tasarlanmıştır ya da tasarlanmamıştır.

EnterpriseView
serverless-first-architecture.webp
Infrastructure

Sunucusuz Odaklı Mimari

Kullandığınız kadar ödeyin, kullanmadığınızda sıfıra ölçeklendirin ve sunucuları tamamen yönetmeyi bırakın — ancak ekonominin ne zaman işlemeyi durduracağını bilin.

AdvancedView

Sıkça Sorulan Sorular

batch ağırlıklı veya periyodik iş yüklerine sahip MicrocosmWorks müşterileri, on-off scaling uygulandıktan sonra genellikle %60-80 oranında bulut maliyeti azalması görürler, çünkü işlem kaynakları 7/24 çalışmak yerine yalnızca aktif işlem pencereleri sırasında çalışır. Gerçek kullanım telemetrisine dayalı scaling politikaları tasarlarız—örneğin, günde 4 saat çalışan bir veri işleme hattı, tam 24 saat yerine sadece bu 4 saatin ücretini öder. Mimarlarımız, herhangi bir uygulama başlamadan önce kesin tasarrufları tahmin etmek için bir keşif aşamasında iş yükü desenlerinizi analiz eder.

Önceden ısıtılmış node havuzlarındaki kapsayıcılı uygulamalar için cold-start süreleri 2-3 saniyeden, özel GPU instances veya büyük model loading gerektiren iş yükleri için 5-10 dakikaya kadar değişmektedir ve MicrocosmWorks bu gecikmeyi minimize etmek için çeşitli teknikler kullanır. Geçmiş trafik modellerini ve planlanmış olayları kullanarak beklenen talepten önce kaynakları devreye sokan predictive scaling uyguluyoruz ve gecikmeye duyarlı iş yükleri için container image pre-pulling ve warm pool reservations kullanıyoruz. Hiçbir cold start'a tolerans gösteremeyen uygulamalar için, talep geldiğinde agresif bir şekilde ölçeklenen minimum bir warm baseline sürdürüyoruz.

MicrocosmWorks, queue depth, CPU utilization veya özel uygulama metrikleri tarafından tetiklenen agresif scale-up politikalarını, thrashing'i önlemek için cooldown periods içeren daha kademeli scale-down politikalarıyla birleştirerek reaktif auto-scaling'i uygular. Scale-up olayları sırasında over-provisioning buffers yapılandırıyoruz, böylece sistem talebi tek tek instance'lar halinde karşılamak yerine sürekli büyümeyi öngörür. flash sales veya viral events gibi gerçekten öngörülemeyen yoğunluklar için, pazarlama veya operasyon takviminizden gelen event-driven triggers kullanarak kapasiteyi pre-provision ederiz.

MicrocosmWorks, boşta kalma sürelerinde compute'u sıfıra ölçeklendirirken storage'ı kalıcı ve anında erişilebilir tutan Aurora Serverless, Neon veya PlanetScale gibi serverless database tekliflerini kullanarak veritabanlarına on-off scaling uygular. Serverless database'leri kullanamayan stateful iş yükleri için, query load'a göre replica ekleyip çıkarırken minimal bir primary instance'ı her zaman çalışır durumda tutan read-replica scaling uyguluyoruz. Bu hibrit yaklaşım, shutdown ve yeniden başlatma döngüleri sırasında veritabanı durumunu yönetme karmaşası olmaksızın, data tier'ları için ölçeklendirmenin maliyet avantajlarını müşterilere sunar.

MicrocosmWorks, örnek (instance) sayılarını, ölçeklendirme olayı gecikmesini, başarısız ölçeklendirme girişimlerini ve istenen ile gerçek kapasite arasındaki farkı Grafana veya Datadog panolarını kullanarak gerçek zamanlı olarak izleyen kapsamlı ölçeklendirme gözlemlenebilirliği (observability) dağıtır. Ölçeklendirme hataları, ölçeklendirme tavanının çok düşük olduğunu gösteren sürekli yüksek kaynak kullanımı ve kontrolsüz ölçeklendirmeyi gösteren maliyet anormallikleri için çok kanallı uyarılar yapılandırırız. Runbook'larımız, bulut sağlayıcı örnek (instance) limitlerine ulaşma veya belirli erişilebilirlik bölgelerinde (availability zones) yetersiz kapasite hatalarıyla karşılaşma gibi yaygın hata modları için otomatik iyileştirme içerir.