Ein/Aus-Skalierungsmuster für AI- und Videoverarbeitungs-Workloads
Eine AI-gestützte Videoverarbeitungsplattform musste hochvariable Workloads bewältigen – von null Aufträgen außerhalb der Geschäftszeiten bis zu Hunderten gleichzeitiger Videoverarbeitungs- und AI-Inferenzaufgaben in Spitzenzeiten – ohne für ungenutzte GPU- und Compute-Ressourcen zu bezahlen.
Ihr Projekt besprechen
Die Herausforderung
AI- und Videoverarbeitungs-Workloads sind von Natur aus sprunghaft und teuer:
- GPU-Instanzen sind kostspielig, egal ob sie Aufträge verarbeiten oder untätig sind
- Video Encoding, Transkription und AI Inference erfordern unterschiedliche Ressourcenprofile
- Das Verhältnis von Spitzen- zu Talzeiten betrug 50:1 – über 200 Aufträge in Spitzenzeiten, nahezu null über Nacht
- Herkömmliches Auto-Scaling war zu langsam (5-10 Minuten Kaltstart) für zeitsensible Benutzeranfragen
- Eine für Spitzenlasten bereitgestellte feste Infrastruktur bedeutete über 80 % Verschwendung außerhalb der Spitzenzeiten
Unsere Lösung
Wir implementierten ein Ein/Aus-Skalierungsmuster – eine hybride Architektur, bei der Compute-Ressourcen Just-in-Time für aktive Workloads bereitgestellt und bei Untätigkeit vollständig freigegeben werden, mit Warm Pools für latenzsensitive Aufgaben und Cold Pools für Batch-Jobs.
Architektur
- Job Queue: Datenbankgestützte Job Queue mit Prioritätsklassifizierung
- Orchestrator: Service zur Verwaltung des Ressourcen-Lebenszyklus und der Job-Weiterleitung
- GPU Workers (AI): Cloud GPU-Pods für Inference (Objekterkennung, Transkription, Sprechererkennung)
- CPU Workers (Video): Cloud VMs für Video Encoding und Rendering
- Warm Pool: Vorinitialisierte Instanzen für latenzsensitive Jobs (< 30s Startzeit)
- Cold Pool: On-Demand-Instanzen für Batch-/Massenverarbeitung (2-5 Minuten Startzeit akzeptabel)
Implementierung des Ein/Aus-Musters
Ressourcen-Lebenszyklus-Zustände
Ressourcen durchlaufen einen definierten Lebenszyklus: von vollständig freigegeben (null Kosten), über die Bereitstellung und das Aufwärmen (Laden von Modellen, Health Checks), zu bereit- und Verarbeitungszuständen, dann durch ein Cooldown-Fenster, bevor sie wieder in den freigegebenen Zustand zurückkehren.
Warm Pool Strategie
Für latenzsensitive Verarbeitung (benutzerinitiiert, erwartet Ergebnisse in Minuten):
- Aufrechterhaltung eines minimalen Warm Pool von Instanzen während der Geschäftszeiten
- AI-Modelle beim Container-Start vorladen
- Eingehende Jobs zuerst an warme Instanzen weiterleiten
- Zusätzliche warme Instanzen skalieren, wenn die Warteschlangentiefe einen Schwellenwert überschreitet
- Konfigurierbarer Cooldown-Timer hält Instanzen zwischen sporadischen Jobs am Leben
Cold Pool Strategie
Für Batch-Verarbeitung (nächtliche Massenaufträge, nicht dringende Re-Encodes):
- Standardmäßig keine laufenden Instanzen
- Job Queue löst die Bereitstellung aus, wenn Batch-Jobs eingereicht werden
- Für Durchsatz statt Latenz optimierte Bulk-Instanzen
- Sofort nach Abschluss des Batches beenden
- Spot-/Preemptible-Instanzen für erhebliche Kosteneinsparungen nutzen
Job-Klassifizierung & Weiterleitung
Jobs werden automatisch nach Priorität und Typ klassifiziert und dann an den entsprechenden Pool weitergeleitet:
- Hochprioritäre benutzerinitiierte AI-Aufgaben werden an warme GPU Pools weitergeleitet
- Kritische Echtzeitaufgaben werden an Always-on dedizierte Instanzen weitergeleitet
- Mittelprioritäre Encoding-Aufgaben werden an warme oder kalte CPU Pools weitergeleitet
- Niedrigprioritäre Batch-Aufgaben werden an kalte Spot-/Preemptible-Instanzen weitergeleitet
Orchestrator-Logik
Scale-Up-Trigger
- Warteschlangentiefe überschreitet konfigurierbaren Schwellenwert
- Durchschnittliche Wartezeit überschreitet SLA für die Prioritätsstufe
- Geplante Hochskalierung vor bekannten Spitzenzeiten
- Manueller Trigger über admin API für erwartete Verkehrsspitzen
Scale-Down-Trigger
- Keine Jobs während der Dauer des Cooldown-Fensters verarbeitet
- Geplante Herunterskalierung nach Spitzenzeiten
- Alle in der Warteschlange befindlichen Jobs abgeschlossen, ohne neue Einreichungen
- Kostenschwelle für den Abrechnungszeitraum erreicht
Gesundheit & Wiederherstellung
- Regelmäßige Health-Probes auf allen aktiven Instanzen
- Unzuverlässige Instanzen werden automatisch ersetzt
- Fehlgeschlagene Jobs werden mit Retry Count erneut in die Warteschlange gestellt und an eine andere Instanz weitergeleitet
- Dead Letter Queue für Jobs, die die maximale Anzahl von Wiederholungsversuchen überschreiten
Kosten-Auswirkungen
Das Ein/Aus-Muster führte zu einer ungefähren 70%igen Kostenreduzierung im Vergleich zu einer Always-on-Festinfrastruktur, indem es ungenutzte Compute-Ressourcen außerhalb der Spitzenzeiten eliminierte, Ressourcen pro Job-Typ richtig dimensionierte und Spot-Instanzen für Batch-Workloads nutzte.
Hauptmerkmale
- Null-Leerlaufkosten — Ressourcen werden bei Nichtverarbeitung von Jobs vollständig freigegeben
- Warm Pools — Vorinitialisierte Instanzen für latenzsensitive Workloads
- Cold Pools — On-Demand-Bereitstellung für Batch-Jobs zu geringsten Kosten
- Job-Klassifizierung — Automatische Weiterleitung basierend auf Priorität, Typ und Latenzanforderungen
- Cooldown Windows — Konfigurierbarer Leerlauf-Timeout verhindert vorzeitiges Herunterskalieren zwischen Bursts
- Spot/Preemptible-Unterstützung — Batch-Jobs werden an rabattierte Instanzen weitergeleitet für erhebliche Einsparungen
- Gesundheit & Wiederherstellung — Automatischer Austausch unzuverlässiger Instanzen mit Job-Wiederanreihung
- Geplante Skalierung — Antizipation bekannter Verkehrsmuster mit zeitbasierten Bereitstellungsregeln
Ergebnisse
Technologie-Stack
caseStudyDetail.more Fallstudien
Entdecken Sie mehr unserer technischen Implementierungen
Nutzung von RunPod für skalierbare, kostengünstige AI-Inferenz
Eine AI-gestützte Videoanalyseplattform benötigte Hochleistungs-GPU-Compute für Echtzeit-Objekterkennung und -Inferenz über mehrere gleichzeitig laufende Videostreams hinweg – ohne die unerschwinglichen Kosten dedizierter GPU-Server, die rund um die Uhr in Betrieb sind.
KI-gestützte Rechnungsverarbeitung mit OCR und QuickBooks-Integration
Ein mittelständisches Unternehmen, das monatlich Hunderte von Lieferantenrechnungen verarbeitete, musste die manuelle Dateneingabe eliminieren, indem es Rechnungsdaten automatisch mithilfe von AI/OCR extrahierte und diese direkt mit QuickBooks für die Buchhaltung und Zahlungsverfolgung synchronisierte.
Bereit, Ihr Unternehmen zu transformieren?
Lassen Sie uns besprechen, wie wir ähnliche Lösungen für Ihre Herausforderungen anwenden können.