Açma-kapama ölçeklendirme modeli nedir ve AI iş yükleri için geleneksel otomatik ölçeklendirmeden ne zaman daha iyidir?

MicrocosmWorks, GPU yoğun işlemeye yönelik öngörülebilir ani yüklenmelerin ardından uzun boşta kalma süreleri olan iş yükleri için açma-kapama ölçeklendirme modelini geliştirdi; geleneksel otomatik ölçeklendirmenin boşta kalma sürelerinde minimum kapasiteyi koruyarak para israf ettiği durumlarda. Hazırda bekleyen örnekleri çalıştırmak yerine, model bir işleme işi geldiğinde isteğe bağlı olarak GPU altyapısını sağlar, iş yükünü yürütür ve tamamlandığında altyapıyı tamamen sonlandırır, böylece boşta kalma sürelerinde sıfıra yakın maliyet elde eder.

Açma-kapama (on-off) deseni, zamana duyarlı AI işlemleri için GPU örnekleri sağlanırken soğuk başlatma gecikmelerini nasıl en aza indirir?

MicrocosmWorks, tüm AI model ağırlıkları ve bağımlılıkları dahil edilmiş, optimize edilmiş konteyner imajlarını önceden oluşturarak ve bunları işlem bölgesine coğrafi olarak yakın bir registry'de depolayarak soğuk başlatma sürelerini 60 saniyenin altına düşürdü. Orkestrasyon katmanı, planlanmış iş yükleri için beklenen talepten 2-3 dakika önce altyapıyı başlatan öngörücü kaynak sağlama kullanır; öngörülemeyen iş yükleri için ise sistem, işleri sıraya alır ve kullanıcıların taleplerinin işlenmekte olduğunu bilmeleri için işleme başladı bildirimleri gönderir.

GPU örneklerini sürekli çalıştırmaya kıyasla açma-kapama modeli ne kadar maliyet tasarrufu sağlar?

MicrocosmWorks, AI video işleme iş yükleri günde 2-6 saat çalışan müşterileri için 7/24 GPU örneklerini sürdürmeye kıyasla %70-90 oranında maliyet azaltımı belgeledi. Tasarruflar, yalnızca gerçek işleme süresi artı birkaç dakikalık başlangıç ve sonlandırma ek yükü için ödeme yapmaktan kaynaklanmaktadır ve bu model, gece toplu video işleme, isteğe bağlı transkodlama veya kullanımın doğal olarak aralıklı olduğu olay tetiklemeli AI analizi gibi iş akışları için özellikle etkilidir.

on-off pattern, yüzlerce videoyu paralel olarak işlemesi gereken iş yüklerini kaldırabilir mi?

Evet, MicrocosmWorks, büyük batch job'lar geldiğinde paralel olarak birden fazla GPU worker'ı tahsis eden, video dosyalarını bir job queue kullanarak worker'lar arasında dağıtan ve batch tamamlandığında tüm worker'ları sonlandıran bir fan-out mimarisini on-off pattern içinde uyguladı. Sistem, video başına ilerlemeyi izler ve batch'in geri kalanını engellemeden, retry logic ile bireysel video hatalarını yönetir ve sonuçları, downstream tüketim için tek bir çıktı konumunda birleştirir.

AI ve video işleme iş yükleri için açma-kapama ölçeklendirme desenini uygulamanın maliyeti nedir?

MicrocosmWorks, açma-kapama ölçeklendirme mimarilerini saatte 25-45 $ geliştirme oranlarıyla uygular. İş orkestrasyonu, altyapı sağlama, izleme ve hata yönetimi dahil olmak üzere üretime hazır bir uygulama genellikle 3-5 hafta içinde teslim edilir. Geliştirme yatırımı, özellikle günün %50'sinden fazlasını boşta geçiren sürekli açık GPU örnekleri kullanan kuruluşlar için, yalnızca GPU maliyet tasarrufları sayesinde genellikle 1-2 ay içinde kendini amorti eder.

On-Off Scaling Pattern for AI & Video Processing Workload...

AI ve Video İşleme İş Yükleri için Aç-Kapa Ölçekleme Deseni

AI destekli bir video işleme platformu, boşta olan GPU ve hesaplama kaynakları için ödeme yapmadan, boş saatlerde sıfır işten, yoğun saatlerde yüzlerce eşzamanlı video işleme ve AI çıkarım görevine kadar son derece değişken iş yüklerini yönetmek zorundaydı.

Projenizi Tartışın

Aç-Kapa ölçekleme deseni uyguladık — aktif iş yükleri için hesaplama kaynaklarının tam zamanında sağlandığı ve boşta olduğunda tamamen tahsis edilmediği, gecikme açısından hassas görevler için sıcak havuzlar ve toplu işler için soğuk havuzlar içeren hibrit bir mimari.

Mimari

İş Kuyruğu: Öncelik sınıflandırması ile veritabanı destekli iş kuyruğu
Orkestratör: Kaynak yaşam döngüsünü ve iş yönlendirmesini yöneten hizmet
GPU İşçileri (AI): Çıkarım için bulut GPU podları (nesne algılama, transkripsiyon, konuşmacı algılama)
CPU İşçileri (Video): Video kodlama ve işleme için bulut VM'leri
Sıcak Havuz: Gecikme açısından hassas işler için önceden başlatılmış örnekler (< 30s başlatma süresi)
Soğuk Havuz: Toplu/çoklu işlem için isteğe bağlı örnekler (2-5 dakika başlatma süresi kabul edilebilir)

Aç-Kapa Deseni Uygulaması

Kaynak Yaşam Döngüsü Durumları

Kaynaklar tanımlanmış bir yaşam döngüsünden geçer: tamamen tahsis edilmemiş (sıfır maliyet) durumdan, sağlama ve ısınma (modellerin yüklenmesi, sağlık kontrolleri) durumlarına, hazır ve işleme durumlarına, ardından tahsis edilmemiş duruma dönmeden önce bir soğuma penceresi boyunca.

Sıcak Havuz Stratejisi

Gecikme açısından hassas işlemler için (kullanıcı tarafından başlatılan, dakikalar içinde sonuç bekleyen):

İş saatleri boyunca minimum sıcak havuz örneklerini koruyun
Konteyner başlatıldığında AI modellerini önceden yükleyin
Gelen işleri önce sıcak örneklere yönlendirin
Kuyruk derinliği eşiği aştığında ek sıcak örnekler ölçekleyin
Yapılandırılabilir soğuma zamanlayıcısı, aralıklı işler arasında örnekleri canlı tutar

Soğuk Havuz Stratejisi

Toplu işlemler için (gece toplu işler, acil olmayan yeniden kodlamalar):

Varsayılan olarak sıfır çalışan örnek
İş kuyruğu, toplu işler gönderildiğinde sağlama işlemini tetikler
Gecikme yerine verim için toplu optimize edilmiş örnekler
Toplu işlem tamamlandıktan hemen sonra sonlandır
Önemli maliyet tasarrufu için spot/öncelikli örnekler kullanın

İş Sınıflandırma ve Yönlendirme

İşler, öncelik ve türüne göre otomatik olarak sınıflandırılır ve ardından uygun havuza yönlendirilir:

Yüksek öncelikli kullanıcı tarafından başlatılan AI görevleri sıcak GPU havuzlarına yönlendirilir
Kritik gerçek zamanlı görevler her zaman açık özel örneklere yönlendirilir
Orta öncelikli kodlama görevleri sıcak veya soğuk CPU havuzlarına yönlendirilir
Düşük öncelikli toplu görevler soğuk spot/öncelikli örneklere yönlendirilir

Orkestratör Mantığı

Ölçekleme Artış Tetikleyicileri

Kuyruk derinliği yapılandırılabilir eşiği aşar
Ortalama bekleme süresi, öncelik seviyesi için SLA'yı aşar
Bilinen yoğun saatlerden önce planlı artış
Beklenen trafik artışları için yönetici API'si aracılığıyla manuel tetikleyici

Ölçekleme Azalış Tetikleyicileri

Soğuma penceresi süresince işlenmiş iş yok
Yoğun saatlerden sonra planlı azalma
Tüm kuyruktaki işler tamamlandı, yeni gönderim yok
Fatura dönemi için maliyet eşiğine ulaşıldı

Sağlık ve Kurtarma

Tüm aktif örneklerde düzenli sağlık kontrolleri
Sağlıksız örnekler otomatik olarak değiştirilir
Başarısız işler, yeniden deneme sayısı ile yeniden sıraya alınır ve farklı bir örneğe yönlendirilir
Maksimum yeniden denemeyi aşan işler için ölü mektup kuyruğu

Maliyet Etkisi

Aç-Kapa deseni, boş saatlerde boşta olan hesaplamayı ortadan kaldırarak, iş türüne göre kaynakları doğru boyutlandırarak ve toplu işler için spot örnekleri kullanarak her zaman açık sabit altyapıya kıyasla yaklaşık %70 maliyet azaltımı sağladı.

Ana Özellikler

Sıfır Boşta Maliyet — İşler işlenmediğinde kaynaklar tamamen tahsis edilmez
Sıcak Havuzlar — Gecikme açısından hassas iş yükleri için önceden başlatılmış örnekler
Soğuk Havuzlar — En düşük maliyetle toplu işler için isteğe bağlı sağlama
İş Sınıflandırma — Öncelik, tür ve gecikme gereksinimlerine göre otomatik yönlendirme
Soğuma Pencereleri — Yapılandırılabilir boşta zaman aşımı, patlamalar arasında erken ölçekleme azaltımını önler
Spot/Öncelikli Destek — Toplu işler önemli tasarruflar için indirimli örneklere yönlendirilir
Sağlık ve Kurtarma — Sağlıksız örneklerin otomatik değiştirilmesi ve işlerin yeniden sıraya alınması
Zamanlanmış Ölçekleme — Bilinen trafik desenlerini zaman tabanlı sağlama kuralları ile tahmin etme

AI ve Video İşleme İş Yükleri için Aç-Kapa Ölçekleme Deseni

Zorluk

Çözümümüz

Mimari

Aç-Kapa Deseni Uygulaması

Kaynak Yaşam Döngüsü Durumları

Sıcak Havuz Stratejisi

Soğuk Havuz Stratejisi

İş Sınıflandırma ve Yönlendirme

Orkestratör Mantığı

Ölçekleme Artış Tetikleyicileri

Ölçekleme Azalış Tetikleyicileri

Sağlık ve Kurtarma

Maliyet Etkisi

Ana Özellikler

Sonuçlar

Teknoloji Yığını

caseStudyDetail.more Vaka Çalışmaları

Ölçeklenebilir, Uygun Maliyetli Yapay Zeka Çıkarımı için RunPod'dan Yararlanmak

Kickly: Girişimler için Yapay Zeka Destekli Proje Platformu

İşletmenizi Dönüştürmeye Hazır mısınız?

AI Destekli Fatura İşleme (OCR ve QuickBooks Entegrasyonu ile)

Sıkça Sorulan Sorular