MicrocosmWorksDijital Kozmosu Yenilikçi ve Mimari Olarak Tasarlamak
Hakkındaİletişim
MicrocosmWorksDijital Kozmosu Yenilikçi ve Mimari Olarak İnşa Etmek

Önemli BT çözümleri sunuyoruz. Teknoloji, güvenlik ve işletmelerin güvenilir, yenilikçi BT altyapısı ile büyümesine yardımcı olmaktan tutkuluyuz.

[email protected]
+91 7011868196
New Delhi, India

AI Büyüme Merkezi

AI MerkeziStartup İnovasyonuKurumsal Hızlandırıcı

Çözümler

Tüm ÇözümlerSağlık ve Fitness UygulamalarıAI Video PlatformuAI Ajan Geliştirme

Kaynaklar

ÖngörülerSektör RehberleriKullanım Durumu ŞablonlarıMimari KalıplarVaka Çalışmaları

Şirket

HakkımızdaİletişimÇalışmalarımız

Hizmetler

Dijital DanışmanlıkBulut AltyapısıSaaS GeliştirmeYapay Zeka GeliştirmeVideo Teknolojisi
ERP GeliştirmeZoho ÖzelleştirmeOdoo GeliştirmeSalesforce EntegrasyonuÖzel CRM Geliştirme
QuickBooks EntegrasyonuIoT ÇözümleriBlokzincir Geliştirme
Siber Güvenlik DanışmanlığıIT Desteği - L3

© 2026 MicrocosmWorks. Tüm hakları saklıdır.

Gizlilik PolitikasıHizmet Şartları
Vaka Çalışmalarına Dön
GPU InfrastructureYayınlandı June 18, 2026 · Güncellendi May 25, 2026

AI ve Video İşleme İş Yükleri için Açma-Kapama Ölçekleme Modeli

Yapay zeka destekli bir video işleme platformunun, boşta duran GPU ve işlem kaynakları için ödeme yapmadan, mesai dışı saatlerde sıfır işten yoğun saatlerde yüzlerce eşzamanlı video işleme ve AI çıkarım görevine kadar oldukça değişken iş yüklerini yönetmesi gerekiyordu.

Projenizi Tartışın
on-off-pattern-ai-video-processing.webp
GPU Infrastructure
Domain
10
Technologies
5
Key Results
Delivered
Status

Zorluk

AI ve video işleme iş yükleri doğası gereği ani ve pahalıdır:

  • GPU örnekleri, işleri işlerken de boşta dururken de maliyetlidir
  • Video kodlama, transkripsiyon ve AI çıkarımı farklı kaynak profilleri gerektirir
  • Yoğunluk-düşüş oranı 50:1 idi — yoğunlukta 200'den fazla iş, gece boyunca sıfıra yakın
  • Geleneksel otomatik ölçekleme, zamana duyarlı kullanıcı istekleri için çok yavaştı (5-10 dk soğuk başlatma)
  • Yoğunluk için sağlanan sabit altyapı, yoğun olmayan saatlerde %80'den fazla israf anlamına geliyordu

Çözümümüz

Etkin iş yükleri için işlem kaynaklarının tam zamanında sağlandığı ve boşta kaldıklarında tamamen serbest bırakıldığı, gecikmeye duyarlı görevler için sıcak havuzlar ve toplu işler için soğuk havuzlar içeren hibrit bir mimari olan Açma-Kapama ölçekleme modelini uyguladık.

Mimari

  • Job Queue: Veritabanı destekli, öncelik sınıflandırmalı iş kuyruğu
  • Orchestrator: Kaynak yaşam döngüsünü ve iş yönlendirmesini yöneten hizmet
  • GPU Workers (AI): Çıkarım (nesne algılama, transkripsiyon, konuşmacı algılama) için bulut GPU pod'ları
  • CPU Workers (Video): Video kodlama ve işleme için bulut VM'leri
  • Warm Pool: Gecikmeye duyarlı işler için önceden başlatılmış örnekler (< 30s başlangıç)
  • Cold Pool: Toplu/büyük ölçekli işleme için isteğe bağlı örnekler (2-5 dk başlangıç kabul edilebilir)

Açma-Kapama Modeli Uygulaması

Kaynak Yaşam Döngüsü Durumları

Kaynaklar tanımlı bir yaşam döngüsünden geçer: tamamen serbest bırakılmış (sıfır maliyet) halinden, sağlama ve ısınma (model yükleme, sağlık kontrolleri) aşamalarına, hazır ve işleme durumlarına, ardından serbest bırakılmış duruma geri dönmeden önce bir bekleme penceresinden geçer.

Sıcak Havuz Stratejisi

Gecikmeye duyarlı işleme için (kullanıcı tarafından başlatılır, sonuçlar dakikalar içinde beklenir):

  • Mesai saatleri içinde minimum bir sıcak örnek havuzu sürdürün
  • Konteyner başlatılırken AI modellerini önceden yükleyin
  • Gelen işleri öncelikle sıcak örneklere yönlendirin
  • Kuyruk derinliği eşiği aştığında ek sıcak örnekleri ölçeklendirin
  • Yapılandırılabilir bekleme süresi, düzensiz işler arasında örnekleri canlı tutar

Soğuk Havuz Stratejisi

Toplu işleme için (gece boyunca büyük ölçekli işler, acil olmayan yeniden kodlamalar):

  • Varsayılan olarak sıfır çalışan örnek
  • Toplu işler gönderildiğinde iş kuyruğu sağlama işlemini tetikler
  • Gecikmeden ziyade verim için optimize edilmiş toplu örnekler
  • Toplu iş tamamlandıktan hemen sonra sonlandırın
  • Önemli maliyet tasarrufu için spot/preemptible örnekleri kullanın

İş Sınıflandırma ve Yönlendirme

İşler öncelik ve türe göre otomatik olarak sınıflandırılır, ardından uygun havuza yönlendirilir:

  • Yüksek öncelikli kullanıcı tarafından başlatılan AI görevleri sıcak GPU havuzlarına yönlendirilir
  • Kritik gerçek zamanlı görevler her zaman açık olan özel örneklere yönlendirilir
  • Orta öncelikli kodlama görevleri sıcak veya soğuk CPU havuzlarına yönlendirilir
  • Düşük öncelikli toplu görevler soğuk spot/preemptible örneklere yönlendirilir

Orchestrator Mantığı

Yukarı Ölçeklendirme Tetikleyicileri

  • Kuyruk derinliği yapılandırılabilir eşiği aştığında
  • Ortalama bekleme süresi öncelik seviyesi için SLA'yı aştığında
  • Bilinen yoğun saatlerden önce zamanlanmış artış
  • Beklenen trafik artışları için admin API aracılığıyla manuel tetikleme

Aşağı Ölçeklendirme Tetikleyicileri

  • Bekleme süresi boyunca hiç iş işlenmediğinde
  • Yoğun saatlerden sonra zamanlanmış azalma
  • Tüm kuyruğa alınmış işler tamamlandı ve yeni gönderim yok
  • Faturalandırma dönemi için maliyet eşiğine ulaşıldığında

Sağlık ve Kurtarma

  • Tüm aktif örneklerde düzenli sağlık yoklamaları
  • Sağlıksız örnekler otomatik olarak değiştirilir
  • Başarısız işler yeniden deneme sayısıyla kuyruğa alınır ve farklı bir örneğe yönlendirilir
  • Maksimum yeniden deneme sayısını aşan işler için Dead letter queue

Maliyet Etkisi

Açma-Kapama modeli, yoğun olmayan saatlerde boşta kalan işlemeyi ortadan kaldırarak, iş türüne göre kaynakları doğru boyutlandırarak ve toplu iş yükleri için spot örneklerden yararlanarak, her zaman açık sabit altyapıya kıyasla yaklaşık %70 maliyet azalması sağladı.

Temel Özellikler

  1. Sıfır Boşta Maliyet — İşler işlenmediğinde kaynaklar tamamen serbest bırakılır
  2. Sıcak Havuzlar — Gecikmeye duyarlı iş yükleri için önceden başlatılmış örnekler
  3. Soğuk Havuzlar — En düşük maliyetle toplu işler için isteğe bağlı sağlama
  4. İş Sınıflandırması — Öncelik, tür ve gecikme gereksinimlerine göre otomatik yönlendirme
  5. Bekleme Süreleri — Yapılandırılabilir boşta kalma zaman aşımı, ani artışlar arasında erken aşağı ölçeklenmeyi önler
  6. Spot/Preemptible Desteği — Toplu işler, önemli tasarruflar için indirimli örneklere yönlendirilir
  7. Sağlık ve Kurtarma — Sağlıksız örneklerin otomatik olarak değiştirilmesi ve işlerin yeniden kuyruğa alınması
  8. Zamanlanmış Ölçeklendirme — Zamana dayalı sağlama kuralları ile bilinen trafik modellerini önceden tahmin etme

Sonuçlar

Maliyet Azalması: Her zaman açık sabit altyapıya kıyasla ~%70 tasarruf
Gecikme: Sıcak havuz örnekleri için < 30 saniye soğuktan hazıra geçiş süresi
Güvenilirlik: Otomatik kurtarma ve işlerin yeniden kuyruğa alınması %99,5'in üzerinde iş tamamlama oranını korudu

Teknoloji Yığını

Node.jsMongoDBRunPod APICloud VM APIsDockerFastAPIFFmpegRedisJob QueueCron Scheduling

caseStudyDetail.more Vaka Çalışmaları

Daha fazla teknik uygulamamızı keşfedin

GPU Infrastructure

Ölçeklenebilir, Uygun Maliyetli Yapay Zeka Çıkarımı için RunPod'dan Yararlanmak

Yapay zeka destekli bir video analizi platformu, birden fazla eş zamanlı video akışında gerçek zamanlı nesne tespiti ve çıkarımı için yüksek performanslı GPU hesaplama gücüne ihtiyaç duyuyordu — 7/24 çalışan özel GPU sunucularının yüksek maliyeti olmadan.

Vaka Çalışmasını Oku
AI Accounting

AI Destekli Fatura İşleme (OCR ve QuickBooks Entegrasyonu ile)

Ayda yüzlerce satıcı faturasını işleyen orta ölçekli bir işletme, fatura verilerini AI/OCR kullanarak otomatik olarak çıkarıp muhasebe ve ödeme takibi için doğrudan QuickBooks'a senkronize ederek manuel veri girişini ortadan kaldırmak istedi.

Vaka Çalışmasını Oku

İşletmenizi Dönüştürmeye Hazır mısınız?

Zorluklarınıza benzer çözümler uygulamamızın yollarını konuşalım.

İletişime GeçincaseStudyDetail.viewAllCaseStudies
Esneklik: Farklı iş türleri için farklı GPU/CPU katmanları, iş başına maliyeti optimize etti
Ölçek: Yoğun olmayan zamanlarda sıfır önceden sağlanmış altyapı ile yoğunlukta 200'den fazla eşzamanlı işi yönetti
Video Encoding

İstemci Tarafında Reklam Ekleme (CSAI), SCTE-35 İşaretleyici Ayrıştırma ve Çok Platformlu Oynatıcı Entegrasyonu ile

Bir video akış platformu, sunucu tarafı reklam eklemenin sağlayamadığı tam reklam etkileşimi desteğiyle (tıklanabilir katmanlar, yardımcı banner'lar, atlama düğmeleri) kişiselleştirilmiş, cihaz düzeyinde reklam deneyimleri sunarak web, mobil ve akıllı TV uygulamaları genelinde Client-Side Ad Insertion (CSAI) uygulamasına ihtiyaç duyuyordu.

Vaka Çalışmasını Oku

Sıkça Sorulan Sorular

MicrocosmWorks, geleneksel otomatik ölçeklendirmenin boşta kalma sürelerinde minimum kapasiteyi sürdürmek için para israf ettiği, GPU yoğun işlemelerin öngörülebilir ani artışları ve ardından uzun boşta kalma süreleri olan iş yükleri için on-off ölçeklendirme modelini geliştirdi. Model, hazırda bekleyen örnekleri çalıştırmak yerine, bir işleme işi geldiğinde GPU altyapısını isteğe bağlı olarak sağlar, iş yükünü yürütür ve iş bittiğinde altyapıyı tamamen sonlandırarak boşta kalma sürelerinde sıfıra yakın maliyet elde eder.

MicrocosmWorks, tüm AI model ağırlıkları ve bağımlılıkları dahil edilmiş, işlem bölgesine coğrafi olarak yakın bir kayıt defterinde saklanan optimize edilmiş kapsayıcı görüntüleri önceden oluşturarak soğuk başlatma sürelerini 60 saniyenin altına indirdi. Orkestrasyon katmanı, planlanmış iş yükleri için beklenen talepten 2-3 dakika önce altyapıyı başlatarak tahmine dayalı sağlama kullanır; öngörülemeyen iş yükleri için ise sistem işleri sıraya alır ve işleme başladı bildirimleri göndererek kullanıcıların taleplerinin işlenmekte olduğunu bilmelerini sağlar.

MicrocosmWorks, AI video işleme iş yükleri günde 2-6 saat çalışan müşterileri için 7/24 GPU örneklerini sürdürmeye kıyasla %70-90 maliyet azalmalarını belgeledi. Tasarruflar yalnızca gerçek işlem süresi artı birkaç dakikalık başlatma ve sonlandırma ek yükü için ödeme yapmaktan kaynaklanır ve model, kullanımın doğası gereği aralıklı olduğu gecelik toplu video işleme, isteğe bağlı kod dönüştürme veya olay tetiklemeli AI analizi gibi iş akışları için özellikle etkilidir.

Evet, MicrocosmWorks, on-off modeli içinde büyük toplu işler geldiğinde paralel olarak birden çok GPU işçisi sağlayan, bir iş kuyruğu kullanarak video dosyalarını işçiler arasında dağıtan ve toplu iş tamamlandığında tüm işçileri sonlandıran bir fan-out architecture uyguladı. Sistem, video başına ilerlemeyi izler ve toplu işin geri kalanını engellemeden tek tek video hatalarını yeniden deneme mantığıyla ele alır ve aşağı akışta tüketim için sonuçları tek bir çıktı konumunda birleştirir.

MicrocosmWorks, on-off ölçeklendirme mimarilerini saatte 25-45 dolar geliştirme oranlarıyla uygular; iş orkestrasyonu, altyapı sağlama, izleme ve hata yönetimi içeren üretim ortamına hazır bir uygulama genellikle 3-5 hafta içinde teslim edilir. Geliştirme yatırımı, özellikle günün %50'sinden fazlasını boşta geçiren sürekli açık GPU örnekleri çalıştıran kuruluşlar için, yalnızca GPU maliyet tasarrufları sayesinde genellikle 1-2 ay içinde kendini amorti eder.