On-off ölçeklendirme modeli nedir ve AI iş yükleri için geleneksel otomatik ölçeklendirmeden ne zaman daha iyidir?

MicrocosmWorks, geleneksel otomatik ölçeklendirmenin boşta kalma sürelerinde minimum kapasiteyi sürdürmek için para israf ettiği, GPU yoğun işlemelerin öngörülebilir ani artışları ve ardından uzun boşta kalma süreleri olan iş yükleri için on-off ölçeklendirme modelini geliştirdi. Model, hazırda bekleyen örnekleri çalıştırmak yerine, bir işleme işi geldiğinde GPU altyapısını isteğe bağlı olarak sağlar, iş yükünü yürütür ve iş bittiğinde altyapıyı tamamen sonlandırarak boşta kalma sürelerinde sıfıra yakın maliyet elde eder.

On-off modeli, zamana duyarlı AI işleme için GPU örneklerini sağlarken soğuk başlatma gecikmelerini nasıl en aza indirir?

MicrocosmWorks, tüm AI model ağırlıkları ve bağımlılıkları dahil edilmiş, işlem bölgesine coğrafi olarak yakın bir kayıt defterinde saklanan optimize edilmiş kapsayıcı görüntüleri önceden oluşturarak soğuk başlatma sürelerini 60 saniyenin altına indirdi. Orkestrasyon katmanı, planlanmış iş yükleri için beklenen talepten 2-3 dakika önce altyapıyı başlatarak tahmine dayalı sağlama kullanır; öngörülemeyen iş yükleri için ise sistem işleri sıraya alır ve işleme başladı bildirimleri göndererek kullanıcıların taleplerinin işlenmekte olduğunu bilmelerini sağlar.

On-off modeli, GPU örneklerini sürekli çalıştırmaya kıyasla ne kadar maliyet tasarrufu sağlar?

MicrocosmWorks, AI video işleme iş yükleri günde 2-6 saat çalışan müşterileri için 7/24 GPU örneklerini sürdürmeye kıyasla %70-90 maliyet azalmalarını belgeledi. Tasarruflar yalnızca gerçek işlem süresi artı birkaç dakikalık başlatma ve sonlandırma ek yükü için ödeme yapmaktan kaynaklanır ve model, kullanımın doğası gereği aralıklı olduğu gecelik toplu video işleme, isteğe bağlı kod dönüştürme veya olay tetiklemeli AI analizi gibi iş akışları için özellikle etkilidir.

On-off modeli, yüzlerce videoyu paralel olarak işlemesi gereken iş yüklerini yönetebilir mi?

Evet, MicrocosmWorks, on-off modeli içinde büyük toplu işler geldiğinde paralel olarak birden çok GPU işçisi sağlayan, bir iş kuyruğu kullanarak video dosyalarını işçiler arasında dağıtan ve toplu iş tamamlandığında tüm işçileri sonlandıran bir fan-out architecture uyguladı. Sistem, video başına ilerlemeyi izler ve toplu işin geri kalanını engellemeden tek tek video hatalarını yeniden deneme mantığıyla ele alır ve aşağı akışta tüketim için sonuçları tek bir çıktı konumunda birleştirir.

AI ve video işleme iş yükleri için on-off ölçeklendirme modelini uygulamanın maliyeti nedir?

MicrocosmWorks, on-off ölçeklendirme mimarilerini saatte 25-45 dolar geliştirme oranlarıyla uygular; iş orkestrasyonu, altyapı sağlama, izleme ve hata yönetimi içeren üretim ortamına hazır bir uygulama genellikle 3-5 hafta içinde teslim edilir. Geliştirme yatırımı, özellikle günün %50'sinden fazlasını boşta geçiren sürekli açık GPU örnekleri çalıştıran kuruluşlar için, yalnızca GPU maliyet tasarrufları sayesinde genellikle 1-2 ay içinde kendini amorti eder.

On-Off Scaling Pattern for AI & Video Processing Workload...

AI ve Video İşleme İş Yükleri için Açma-Kapama Ölçekleme Modeli

Yapay zeka destekli bir video işleme platformunun, boşta duran GPU ve işlem kaynakları için ödeme yapmadan, mesai dışı saatlerde sıfır işten yoğun saatlerde yüzlerce eşzamanlı video işleme ve AI çıkarım görevine kadar oldukça değişken iş yüklerini yönetmesi gerekiyordu.

Projenizi Tartışın

Etkin iş yükleri için işlem kaynaklarının tam zamanında sağlandığı ve boşta kaldıklarında tamamen serbest bırakıldığı, gecikmeye duyarlı görevler için sıcak havuzlar ve toplu işler için soğuk havuzlar içeren hibrit bir mimari olan Açma-Kapama ölçekleme modelini uyguladık.

Mimari

Job Queue: Veritabanı destekli, öncelik sınıflandırmalı iş kuyruğu
Orchestrator: Kaynak yaşam döngüsünü ve iş yönlendirmesini yöneten hizmet
GPU Workers (AI): Çıkarım (nesne algılama, transkripsiyon, konuşmacı algılama) için bulut GPU pod'ları
CPU Workers (Video): Video kodlama ve işleme için bulut VM'leri
Warm Pool: Gecikmeye duyarlı işler için önceden başlatılmış örnekler (< 30s başlangıç)
Cold Pool: Toplu/büyük ölçekli işleme için isteğe bağlı örnekler (2-5 dk başlangıç kabul edilebilir)

Açma-Kapama Modeli Uygulaması

Kaynak Yaşam Döngüsü Durumları

Kaynaklar tanımlı bir yaşam döngüsünden geçer: tamamen serbest bırakılmış (sıfır maliyet) halinden, sağlama ve ısınma (model yükleme, sağlık kontrolleri) aşamalarına, hazır ve işleme durumlarına, ardından serbest bırakılmış duruma geri dönmeden önce bir bekleme penceresinden geçer.

Sıcak Havuz Stratejisi

Gecikmeye duyarlı işleme için (kullanıcı tarafından başlatılır, sonuçlar dakikalar içinde beklenir):

Mesai saatleri içinde minimum bir sıcak örnek havuzu sürdürün
Konteyner başlatılırken AI modellerini önceden yükleyin
Gelen işleri öncelikle sıcak örneklere yönlendirin
Kuyruk derinliği eşiği aştığında ek sıcak örnekleri ölçeklendirin
Yapılandırılabilir bekleme süresi, düzensiz işler arasında örnekleri canlı tutar

Soğuk Havuz Stratejisi

Toplu işleme için (gece boyunca büyük ölçekli işler, acil olmayan yeniden kodlamalar):

Varsayılan olarak sıfır çalışan örnek
Toplu işler gönderildiğinde iş kuyruğu sağlama işlemini tetikler
Gecikmeden ziyade verim için optimize edilmiş toplu örnekler
Toplu iş tamamlandıktan hemen sonra sonlandırın
Önemli maliyet tasarrufu için spot/preemptible örnekleri kullanın

İş Sınıflandırma ve Yönlendirme

İşler öncelik ve türe göre otomatik olarak sınıflandırılır, ardından uygun havuza yönlendirilir:

Yüksek öncelikli kullanıcı tarafından başlatılan AI görevleri sıcak GPU havuzlarına yönlendirilir
Kritik gerçek zamanlı görevler her zaman açık olan özel örneklere yönlendirilir
Orta öncelikli kodlama görevleri sıcak veya soğuk CPU havuzlarına yönlendirilir
Düşük öncelikli toplu görevler soğuk spot/preemptible örneklere yönlendirilir

Orchestrator Mantığı

Yukarı Ölçeklendirme Tetikleyicileri

Kuyruk derinliği yapılandırılabilir eşiği aştığında
Ortalama bekleme süresi öncelik seviyesi için SLA'yı aştığında
Bilinen yoğun saatlerden önce zamanlanmış artış
Beklenen trafik artışları için admin API aracılığıyla manuel tetikleme

Aşağı Ölçeklendirme Tetikleyicileri

Bekleme süresi boyunca hiç iş işlenmediğinde
Yoğun saatlerden sonra zamanlanmış azalma
Tüm kuyruğa alınmış işler tamamlandı ve yeni gönderim yok
Faturalandırma dönemi için maliyet eşiğine ulaşıldığında

Sağlık ve Kurtarma

Tüm aktif örneklerde düzenli sağlık yoklamaları
Sağlıksız örnekler otomatik olarak değiştirilir
Başarısız işler yeniden deneme sayısıyla kuyruğa alınır ve farklı bir örneğe yönlendirilir
Maksimum yeniden deneme sayısını aşan işler için Dead letter queue

Maliyet Etkisi

Açma-Kapama modeli, yoğun olmayan saatlerde boşta kalan işlemeyi ortadan kaldırarak, iş türüne göre kaynakları doğru boyutlandırarak ve toplu iş yükleri için spot örneklerden yararlanarak, her zaman açık sabit altyapıya kıyasla yaklaşık %70 maliyet azalması sağladı.

Temel Özellikler

Sıfır Boşta Maliyet — İşler işlenmediğinde kaynaklar tamamen serbest bırakılır
Sıcak Havuzlar — Gecikmeye duyarlı iş yükleri için önceden başlatılmış örnekler
Soğuk Havuzlar — En düşük maliyetle toplu işler için isteğe bağlı sağlama
İş Sınıflandırması — Öncelik, tür ve gecikme gereksinimlerine göre otomatik yönlendirme
Bekleme Süreleri — Yapılandırılabilir boşta kalma zaman aşımı, ani artışlar arasında erken aşağı ölçeklenmeyi önler
Spot/Preemptible Desteği — Toplu işler, önemli tasarruflar için indirimli örneklere yönlendirilir
Sağlık ve Kurtarma — Sağlıksız örneklerin otomatik olarak değiştirilmesi ve işlerin yeniden kuyruğa alınması
Zamanlanmış Ölçeklendirme — Zamana dayalı sağlama kuralları ile bilinen trafik modellerini önceden tahmin etme

AI ve Video İşleme İş Yükleri için Açma-Kapama Ölçekleme Modeli

Zorluk

Çözümümüz

Mimari

Açma-Kapama Modeli Uygulaması

Kaynak Yaşam Döngüsü Durumları

Sıcak Havuz Stratejisi

Soğuk Havuz Stratejisi

İş Sınıflandırma ve Yönlendirme

Orchestrator Mantığı

Yukarı Ölçeklendirme Tetikleyicileri

Aşağı Ölçeklendirme Tetikleyicileri

Sağlık ve Kurtarma

Maliyet Etkisi

Temel Özellikler

Sonuçlar

Teknoloji Yığını

caseStudyDetail.more Vaka Çalışmaları

Ölçeklenebilir, Uygun Maliyetli Yapay Zeka Çıkarımı için RunPod'dan Yararlanmak

AI Destekli Fatura İşleme (OCR ve QuickBooks Entegrasyonu ile)

İşletmenizi Dönüştürmeye Hazır mısınız?

İstemci Tarafında Reklam Ekleme (CSAI), SCTE-35 İşaretleyici Ayrıştırma ve Çok Platformlu Oynatıcı Entegrasyonu ile

Sıkça Sorulan Sorular