On-Off-Skalierungsmuster fĂĽr AI- und Videoverarbeitungs-Workloads
Eine KI-gestützte Videoverarbeitungsplattform musste hochvariable Workloads bewältigen – von null Aufträgen außerhalb der Geschäftszeiten bis zu Hunderten gleichzeitiger Videoverarbeitungs- und AI-Inferenzaufgaben während Spitzenzeiten – ohne für ungenutzte GPU- und Compute-Ressourcen bezahlen zu müssen.
Ihr Projekt besprechen
Die Herausforderung
AI- und Videoverarbeitungs-Workloads sind von Natur aus sprunghaft und teuer:
- GPU-Instanzen sind kostspielig, egal ob sie Aufträge verarbeiten oder untätig sind
- Videokodierung, Transkription und AI-Inferenz erfordern unterschiedliche Ressourcenprofile
- Das Verhältnis von Spitzen- zu Tiefstlast betrug 50:1 — über 200 Aufträge in Spitzenzeiten, nahezu null über Nacht
- Herkömmliches Auto-Scaling war zu langsam (5-10 Minuten Kaltstart) für zeitkritische Benutzeranfragen
- FĂĽr Spitzenzeiten bereitgestellte feste Infrastruktur bedeutete ĂĽber 80% Verschwendung auĂźerhalb der Spitzenzeiten
Unsere Lösung
Wir implementierten ein On-Off-Skalierungsmuster – eine hybride Architektur, bei der Compute-Ressourcen just-in-time für aktive Workloads bereitgestellt und bei Untätigkeit vollständig freigegeben werden, mit warm pools für latenzkritische Aufgaben und cold pools für Batch-Jobs.
Architektur
- Job Queue: Datenbankgestützte Job Queue mit Prioritätsklassifizierung
- Orchestrator: Dienst zur Verwaltung des Ressourcen-Lebenszyklus und des Job-Routings
- GPU Workers (AI): Cloud GPU Pods fĂĽr Inferenz (Objekterkennung, Transkription, Sprechererkennung)
- CPU Workers (Video): Cloud VMs fĂĽr Videokodierung und -rendering
- Warm Pool: Vorinitialisierte Instanzen fĂĽr latenzkritische Jobs (< 30s Startzeit)
- Cold Pool: On-Demand-Instanzen fĂĽr Batch-/Massenverarbeitung (2-5 Min. Startzeit akzeptabel)
Implementierung des On-Off-Musters
Ressourcen-Lebenszyklus-Zustände
Ressourcen durchlaufen einen definierten Lebenszyklus: von vollständig freigegeben (null Kosten), über die Bereitstellung und das Warmlaufen (Modellladen, Health Checks), zu den Zuständen bereit und in Verarbeitung, dann durch ein Cooldown-Fenster, bevor sie wieder freigegeben werden.
Warm Pool Strategie
FĂĽr latenzkritische Verarbeitung (benutzergesteuert, erwartet Ergebnisse innerhalb von Minuten):
- Während der Geschäftszeiten einen minimalen warm pool von Instanzen aufrechterhalten
- AI-Modelle beim Container-Start vorladen
- Eingehende Jobs zuerst an warm instances weiterleiten
- Zusätzliche warm instances hochskalieren, wenn die Warteschlangentiefe den Schwellenwert überschreitet
- Konfigurierbarer Cooldown-Timer hält Instanzen zwischen sporadischen Jobs am Leben
Cold Pool Strategie
Für die Batch-Verarbeitung (nächtliche Bulk-Jobs, nicht dringende Neu-Kodierungen):
- Standardmäßig keine Instanzen aktiv
- Job Queue löst die Bereitstellung aus, wenn Batch-Jobs eingereicht werden
- Bulk-optimierte Instanzen fĂĽr Durchsatz ĂĽber Latenz
- Sofort nach Abschluss des Batches beenden
- Spot-/Preemptible-Instanzen fĂĽr erhebliche Kosteneinsparungen nutzen
Job-Klassifizierung & -Routing
Jobs werden automatisch nach Priorität und Typ klassifiziert und dann an den entsprechenden Pool weitergeleitet:
- Hochprioritäre benutzergesteuerte AI-Aufgaben werden an warm GPU pools weitergeleitet
- Kritische Echtzeit-Aufgaben werden an always-on dedizierte Instanzen weitergeleitet
- Mittelprioritäre Kodierungsaufgaben werden an warm oder cold CPU pools weitergeleitet
- Niedrigprioritäre Batch-Aufgaben werden an cold spot/preemptible instances weitergeleitet
Orchestrator-Logik
Scale-Up-Trigger
- Warteschlangentiefe ĂĽberschreitet konfigurierbaren Schwellenwert
- Durchschnittliche Wartezeit überschreitet SLA für die Prioritätsstufe
- Geplantes Hochfahren vor bekannten Spitzenzeiten
- Manueller Trigger ĂĽber admin API fĂĽr erwartete Verkehrsspitzen
Scale-Down-Trigger
- Keine Jobs verarbeitet während der Dauer des Cooldown-Fensters
- Geplantes Herunterfahren nach Spitzenzeiten
- Alle in der Warteschlange befindlichen Jobs abgeschlossen, ohne neue Einreichungen
- Kostenschwelle fĂĽr den Abrechnungszeitraum erreicht
Health & Recovery
- Regelmäßige Health Probes auf allen aktiven Instanzen
- Fehlerhafte Instanzen werden automatisch ersetzt
- Fehlgeschlagene Jobs werden mit Wiederholungszähler neu in die Warteschlange gestellt und an eine andere Instanz weitergeleitet
- Dead Letter Queue fĂĽr Jobs, die die maximale Anzahl von Wiederholungen ĂĽberschreiten
Kostenfaktor
Das On-Off-Muster erzielte eine Kostensenkung von ungefähr 70% im Vergleich zu einer always-on festen Infrastruktur, indem es ungenutzte Compute-Ressourcen außerhalb der Spitzenzeiten eliminierte, Ressourcen pro Job-Typ richtig dimensionierte und Spot-Instanzen für Batch-Workloads nutzte.
Hauptmerkmale
- Keine Leerlaufkosten — Ressourcen werden vollständig freigegeben, wenn keine Jobs verarbeitet werden
- Warm Pools — Vorinitialisierte Instanzen für latenzkritische Workloads
- Cold Pools — On-Demand-Bereitstellung für Batch-Jobs zu geringsten Kosten
- Job-Klassifizierung — Automatisches Routing basierend auf Priorität, Typ und Latenzanforderungen
- Cooldown Windows — Konfigurierbares Idle-Timeout verhindert vorzeitiges Scale-Down zwischen Bursts
- Spot/Preemptible Support — Batch-Jobs werden an rabattierte Instanzen weitergeleitet, um erhebliche Einsparungen zu erzielen
- Health & Recovery — Automatischer Ersatz fehlerhafter Instanzen mit Job-Wiederwarteschlangen
- Scheduled Scaling — Bekannte Verkehrsmuster mit zeitbasierten Bereitstellungsregeln antizipieren
Ergebnisse
Technologie-Stack
caseStudyDetail.more Fallstudien
Entdecken Sie mehr unserer technischen Implementierungen
Nutzung von RunPod fĂĽr skalierbare, kostengĂĽnstige AI-Inferenz
Eine AI-gestützte Videoanalyseplattform benötigte Hochleistungs-GPU-Compute für Echtzeit-Objekterkennung und -Inferenz über mehrere gleichzeitig laufende Videostreams hinweg – ohne die unerschwinglichen Kosten dedizierter GPU-Server, die rund um die Uhr in Betrieb sind.
KI-gestĂĽtzte Rechnungsverarbeitung mit OCR und QuickBooks-Integration
Ein mittelständisches Unternehmen, das monatlich Hunderte von Lieferantenrechnungen verarbeitete, musste die manuelle Dateneingabe eliminieren, indem es Rechnungsdaten automatisch mithilfe von AI/OCR extrahierte und diese direkt mit QuickBooks für die Buchhaltung und Zahlungsverfolgung synchronisierte.
Bereit, Ihr Unternehmen zu transformieren?
Lassen Sie uns besprechen, wie wir ähnliche Lösungen für Ihre Herausforderungen anwenden können.