AI ve Video İşleme İş Yükleri için Açma-Kapama Ölçekleme Modeli
Yapay zeka destekli bir video işleme platformunun, boşta duran GPU ve işlem kaynakları için ödeme yapmadan, mesai dışı saatlerde sıfır işten yoğun saatlerde yüzlerce eşzamanlı video işleme ve AI çıkarım görevine kadar oldukça değişken iş yüklerini yönetmesi gerekiyordu.
Projenizi Tartışın
Zorluk
AI ve video işleme iş yükleri doğası gereği ani ve pahalıdır:
- GPU örnekleri, işleri işlerken de boşta dururken de maliyetlidir
- Video kodlama, transkripsiyon ve AI çıkarımı farklı kaynak profilleri gerektirir
- Yoğunluk-düşüş oranı 50:1 idi — yoğunlukta 200'den fazla iş, gece boyunca sıfıra yakın
- Geleneksel otomatik ölçekleme, zamana duyarlı kullanıcı istekleri için çok yavaştı (5-10 dk soğuk başlatma)
- Yoğunluk için sağlanan sabit altyapı, yoğun olmayan saatlerde %80'den fazla israf anlamına geliyordu
Çözümümüz
Etkin iş yükleri için işlem kaynaklarının tam zamanında sağlandığı ve boşta kaldıklarında tamamen serbest bırakıldığı, gecikmeye duyarlı görevler için sıcak havuzlar ve toplu işler için soğuk havuzlar içeren hibrit bir mimari olan Açma-Kapama ölçekleme modelini uyguladık.
Mimari
- Job Queue: Veritabanı destekli, öncelik sınıflandırmalı iş kuyruğu
- Orchestrator: Kaynak yaşam döngüsünü ve iş yönlendirmesini yöneten hizmet
- GPU Workers (AI): Çıkarım (nesne algılama, transkripsiyon, konuşmacı algılama) için bulut GPU pod'ları
- CPU Workers (Video): Video kodlama ve işleme için bulut VM'leri
- Warm Pool: Gecikmeye duyarlı işler için önceden başlatılmış örnekler (< 30s başlangıç)
- Cold Pool: Toplu/büyük ölçekli işleme için isteğe bağlı örnekler (2-5 dk başlangıç kabul edilebilir)
Açma-Kapama Modeli Uygulaması
Kaynak Yaşam Döngüsü Durumları
Kaynaklar tanımlı bir yaşam döngüsünden geçer: tamamen serbest bırakılmış (sıfır maliyet) halinden, sağlama ve ısınma (model yükleme, sağlık kontrolleri) aşamalarına, hazır ve işleme durumlarına, ardından serbest bırakılmış duruma geri dönmeden önce bir bekleme penceresinden geçer.
Sıcak Havuz Stratejisi
Gecikmeye duyarlı işleme için (kullanıcı tarafından başlatılır, sonuçlar dakikalar içinde beklenir):
- Mesai saatleri içinde minimum bir sıcak örnek havuzu sürdürün
- Konteyner başlatılırken AI modellerini önceden yükleyin
- Gelen işleri öncelikle sıcak örneklere yönlendirin
- Kuyruk derinliği eşiği aştığında ek sıcak örnekleri ölçeklendirin
- Yapılandırılabilir bekleme süresi, düzensiz işler arasında örnekleri canlı tutar
Soğuk Havuz Stratejisi
Toplu işleme için (gece boyunca büyük ölçekli işler, acil olmayan yeniden kodlamalar):
- Varsayılan olarak sıfır çalışan örnek
- Toplu işler gönderildiğinde iş kuyruğu sağlama işlemini tetikler
- Gecikmeden ziyade verim için optimize edilmiş toplu örnekler
- Toplu iş tamamlandıktan hemen sonra sonlandırın
- Önemli maliyet tasarrufu için spot/preemptible örnekleri kullanın
İş Sınıflandırma ve Yönlendirme
İşler öncelik ve türe göre otomatik olarak sınıflandırılır, ardından uygun havuza yönlendirilir:
- Yüksek öncelikli kullanıcı tarafından başlatılan AI görevleri sıcak GPU havuzlarına yönlendirilir
- Kritik gerçek zamanlı görevler her zaman açık olan özel örneklere yönlendirilir
- Orta öncelikli kodlama görevleri sıcak veya soğuk CPU havuzlarına yönlendirilir
- Düşük öncelikli toplu görevler soğuk spot/preemptible örneklere yönlendirilir
Orchestrator Mantığı
Yukarı Ölçeklendirme Tetikleyicileri
- Kuyruk derinliği yapılandırılabilir eşiği aştığında
- Ortalama bekleme süresi öncelik seviyesi için SLA'yı aştığında
- Bilinen yoğun saatlerden önce zamanlanmış artış
- Beklenen trafik artışları için admin API aracılığıyla manuel tetikleme
Aşağı Ölçeklendirme Tetikleyicileri
- Bekleme süresi boyunca hiç iş işlenmediğinde
- Yoğun saatlerden sonra zamanlanmış azalma
- Tüm kuyruğa alınmış işler tamamlandı ve yeni gönderim yok
- Faturalandırma dönemi için maliyet eşiğine ulaşıldığında
Sağlık ve Kurtarma
- Tüm aktif örneklerde düzenli sağlık yoklamaları
- Sağlıksız örnekler otomatik olarak değiştirilir
- Başarısız işler yeniden deneme sayısıyla kuyruğa alınır ve farklı bir örneğe yönlendirilir
- Maksimum yeniden deneme sayısını aşan işler için Dead letter queue
Maliyet Etkisi
Açma-Kapama modeli, yoğun olmayan saatlerde boşta kalan işlemeyi ortadan kaldırarak, iş türüne göre kaynakları doğru boyutlandırarak ve toplu iş yükleri için spot örneklerden yararlanarak, her zaman açık sabit altyapıya kıyasla yaklaşık %70 maliyet azalması sağladı.
Temel Özellikler
- Sıfır Boşta Maliyet — İşler işlenmediğinde kaynaklar tamamen serbest bırakılır
- Sıcak Havuzlar — Gecikmeye duyarlı iş yükleri için önceden başlatılmış örnekler
- Soğuk Havuzlar — En düşük maliyetle toplu işler için isteğe bağlı sağlama
- İş Sınıflandırması — Öncelik, tür ve gecikme gereksinimlerine göre otomatik yönlendirme
- Bekleme Süreleri — Yapılandırılabilir boşta kalma zaman aşımı, ani artışlar arasında erken aşağı ölçeklenmeyi önler
- Spot/Preemptible Desteği — Toplu işler, önemli tasarruflar için indirimli örneklere yönlendirilir
- Sağlık ve Kurtarma — Sağlıksız örneklerin otomatik olarak değiştirilmesi ve işlerin yeniden kuyruğa alınması
- Zamanlanmış Ölçeklendirme — Zamana dayalı sağlama kuralları ile bilinen trafik modellerini önceden tahmin etme
Sonuçlar
Teknoloji Yığını
caseStudyDetail.more Vaka Çalışmaları
Daha fazla teknik uygulamamızı keşfedin
Ölçeklenebilir, Uygun Maliyetli Yapay Zeka Çıkarımı için RunPod'dan Yararlanmak
Yapay zeka destekli bir video analizi platformu, birden fazla eş zamanlı video akışında gerçek zamanlı nesne tespiti ve çıkarımı için yüksek performanslı GPU hesaplama gücüne ihtiyaç duyuyordu — 7/24 çalışan özel GPU sunucularının yüksek maliyeti olmadan.
AI Destekli Fatura İşleme (OCR ve QuickBooks Entegrasyonu ile)
Ayda yüzlerce satıcı faturasını işleyen orta ölçekli bir işletme, fatura verilerini AI/OCR kullanarak otomatik olarak çıkarıp muhasebe ve ödeme takibi için doğrudan QuickBooks'a senkronize ederek manuel veri girişini ortadan kaldırmak istedi.
İşletmenizi Dönüştürmeye Hazır mısınız?
Zorluklarınıza benzer çözümler uygulamamızın yollarını konuşalım.