AI ve Video İşleme İş Yükleri için Aç-Kapa Ölçekleme Deseni
AI destekli bir video işleme platformu, boşta olan GPU ve hesaplama kaynakları için ödeme yapmadan, boş saatlerde sıfır işten, yoğun saatlerde yüzlerce eşzamanlı video işleme ve AI çıkarım görevine kadar son derece değişken iş yüklerini yönetmek zorundaydı.
Projenizi Tartışın
Zorluk
AI ve video işleme iş yükleri doğası gereği patlayıcı ve maliyetlidir:
- GPU örnekleri, işleme işleri yapsa da boşta kalsa da maliyetlidir
- Video kodlama, transkripsiyon ve AI çıkarımı farklı kaynak profilleri gerektirir
- Tepe-dip oranı 50:1 — yoğun saatlerde 200+ iş, gece neredeyse sıfır
- Geleneksel otomatik ölçekleme, zaman açısından hassas kullanıcı istekleri için çok yavaştı (5-10 dakika soğuk başlatma)
- Tepe için sağlanan sabit altyapı, boş saatlerde %80+ israf anlamına geliyordu
Çözümümüz
Aç-Kapa ölçekleme deseni uyguladık — aktif iş yükleri için hesaplama kaynaklarının tam zamanında sağlandığı ve boşta olduğunda tamamen tahsis edilmediği, gecikme açısından hassas görevler için sıcak havuzlar ve toplu işler için soğuk havuzlar içeren hibrit bir mimari.
Mimari
- İş Kuyruğu: Öncelik sınıflandırması ile veritabanı destekli iş kuyruğu
- Orkestratör: Kaynak yaşam döngüsünü ve iş yönlendirmesini yöneten hizmet
- GPU İşçileri (AI): Çıkarım için bulut GPU podları (nesne algılama, transkripsiyon, konuşmacı algılama)
- CPU İşçileri (Video): Video kodlama ve işleme için bulut VM'leri
- Sıcak Havuz: Gecikme açısından hassas işler için önceden başlatılmış örnekler (< 30s başlatma süresi)
- Soğuk Havuz: Toplu/çoklu işlem için isteğe bağlı örnekler (2-5 dakika başlatma süresi kabul edilebilir)
Aç-Kapa Deseni Uygulaması
Kaynak Yaşam Döngüsü Durumları
Kaynaklar tanımlanmış bir yaşam döngüsünden geçer: tamamen tahsis edilmemiş (sıfır maliyet) durumdan, sağlama ve ısınma (modellerin yüklenmesi, sağlık kontrolleri) durumlarına, hazır ve işleme durumlarına, ardından tahsis edilmemiş duruma dönmeden önce bir soğuma penceresi boyunca.
Sıcak Havuz Stratejisi
Gecikme açısından hassas işlemler için (kullanıcı tarafından başlatılan, dakikalar içinde sonuç bekleyen):
- İş saatleri boyunca minimum sıcak havuz örneklerini koruyun
- Konteyner başlatıldığında AI modellerini önceden yükleyin
- Gelen işleri önce sıcak örneklere yönlendirin
- Kuyruk derinliği eşiği aştığında ek sıcak örnekler ölçekleyin
- Yapılandırılabilir soğuma zamanlayıcısı, aralıklı işler arasında örnekleri canlı tutar
Soğuk Havuz Stratejisi
Toplu işlemler için (gece toplu işler, acil olmayan yeniden kodlamalar):
- Varsayılan olarak sıfır çalışan örnek
- İş kuyruğu, toplu işler gönderildiğinde sağlama işlemini tetikler
- Gecikme yerine verim için toplu optimize edilmiş örnekler
- Toplu işlem tamamlandıktan hemen sonra sonlandır
- Önemli maliyet tasarrufu için spot/öncelikli örnekler kullanın
İş Sınıflandırma ve Yönlendirme
İşler, öncelik ve türüne göre otomatik olarak sınıflandırılır ve ardından uygun havuza yönlendirilir:
- Yüksek öncelikli kullanıcı tarafından başlatılan AI görevleri sıcak GPU havuzlarına yönlendirilir
- Kritik gerçek zamanlı görevler her zaman açık özel örneklere yönlendirilir
- Orta öncelikli kodlama görevleri sıcak veya soğuk CPU havuzlarına yönlendirilir
- Düşük öncelikli toplu görevler soğuk spot/öncelikli örneklere yönlendirilir
Orkestratör Mantığı
Ölçekleme Artış Tetikleyicileri
- Kuyruk derinliği yapılandırılabilir eşiği aşar
- Ortalama bekleme süresi, öncelik seviyesi için SLA'yı aşar
- Bilinen yoğun saatlerden önce planlı artış
- Beklenen trafik artışları için yönetici API'si aracılığıyla manuel tetikleyici
Ölçekleme Azalış Tetikleyicileri
- Soğuma penceresi süresince işlenmiş iş yok
- Yoğun saatlerden sonra planlı azalma
- Tüm kuyruktaki işler tamamlandı, yeni gönderim yok
- Fatura dönemi için maliyet eşiğine ulaşıldı
Sağlık ve Kurtarma
- Tüm aktif örneklerde düzenli sağlık kontrolleri
- Sağlıksız örnekler otomatik olarak değiştirilir
- Başarısız işler, yeniden deneme sayısı ile yeniden sıraya alınır ve farklı bir örneğe yönlendirilir
- Maksimum yeniden denemeyi aşan işler için ölü mektup kuyruğu
Maliyet Etkisi
Aç-Kapa deseni, boş saatlerde boşta olan hesaplamayı ortadan kaldırarak, iş türüne göre kaynakları doğru boyutlandırarak ve toplu işler için spot örnekleri kullanarak her zaman açık sabit altyapıya kıyasla yaklaşık %70 maliyet azaltımı sağladı.
Ana Özellikler
- Sıfır Boşta Maliyet — İşler işlenmediğinde kaynaklar tamamen tahsis edilmez
- Sıcak Havuzlar — Gecikme açısından hassas iş yükleri için önceden başlatılmış örnekler
- Soğuk Havuzlar — En düşük maliyetle toplu işler için isteğe bağlı sağlama
- İş Sınıflandırma — Öncelik, tür ve gecikme gereksinimlerine göre otomatik yönlendirme
- Soğuma Pencereleri — Yapılandırılabilir boşta zaman aşımı, patlamalar arasında erken ölçekleme azaltımını önler
- Spot/Öncelikli Destek — Toplu işler önemli tasarruflar için indirimli örneklere yönlendirilir
- Sağlık ve Kurtarma — Sağlıksız örneklerin otomatik değiştirilmesi ve işlerin yeniden sıraya alınması
- Zamanlanmış Ölçekleme — Bilinen trafik desenlerini zaman tabanlı sağlama kuralları ile tahmin etme
Sonuçlar
Teknoloji Yığını
caseStudyDetail.more Vaka Çalışmaları
Daha fazla teknik uygulamamızı keşfedin
Ölçeklenebilir, Uygun Maliyetli Yapay Zeka Çıkarımı için RunPod'dan Yararlanmak
Yapay zeka destekli bir video analizi platformu, birden fazla eş zamanlı video akışında gerçek zamanlı nesne tespiti ve çıkarımı için yüksek performanslı GPU hesaplama gücüne ihtiyaç duyuyordu — 7/24 çalışan özel GPU sunucularının yüksek maliyeti olmadan.
AI Destekli Fatura İşleme (OCR ve QuickBooks Entegrasyonu ile)
Ayda yüzlerce satıcı faturasını işleyen orta ölçekli bir işletme, fatura verilerini AI/OCR kullanarak otomatik olarak çıkarıp muhasebe ve ödeme takibi için doğrudan QuickBooks'a senkronize ederek manuel veri girişini ortadan kaldırmak istedi.
İşletmenizi Dönüştürmeye Hazır mısınız?
Zorluklarınıza benzer çözümler uygulamamızın yollarını konuşalım.