Was ist das On-Off-Skalierungsmuster, und wann ist es besser als herkömmliches Auto-Scaling für AI-Workloads?

MicrocosmWorks entwickelte das On-Off-Skalierungsmuster für Workloads, die vorhersehbare Spitzen von GPU-intensiver Verarbeitung aufweisen, gefolgt von langen Leerlaufzeiten, in denen herkömmliches Auto-Scaling Geld verschwendet, indem es während der Leerlaufzeiten eine Mindestkapazität aufrechterhält. Anstatt warme Instanzen am Laufen zu halten, stellt das Muster GPU-Infrastruktur bei Bedarf bereit, wenn ein Verarbeitungsauftrag eintrifft, führt den Workload aus und beendet die Infrastruktur vollständig, wenn die Aufgabe erledigt ist, wodurch während der Leerlaufzeiten Kosten nahe Null erreicht werden.

Wie minimiert das On-Off-Muster Kaltstartverzögerungen bei der Bereitstellung von GPU-Instanzen für zeitkritische AI-Verarbeitung?

MicrocosmWorks reduzierte die Kaltstartzeiten auf unter 60 Sekunden, indem es optimierte Container-Images mit allen integrierten AI-Modellgewichten und Abhängigkeiten vorab erstellte, die in einer geografisch nahe an der Compute-Region gelegenen Registry gespeichert sind. Die Orchestrierungsschicht verwendet prädiktive Bereitstellung für geplante Workloads, indem die Infrastruktur 2-3 Minuten vor der erwarteten Nachfrage gestartet wird, und für unvorhersehbare Workloads reiht das System Jobs in die Warteschlange ein und sendet Verarbeitungs-Start-Benachrichtigungen, damit Benutzer wissen, dass ihre Anfrage bearbeitet wird.

Wie hoch sind die Kosteneinsparungen des On-Off-Musters im Vergleich zu kontinuierlich laufenden GPU-Instanzen?

MicrocosmWorks dokumentierte 70-90% Kostensenkungen für Kunden, deren AI-Videoverarbeitungs-Workloads 2-6 Stunden pro Tag laufen, im Vergleich zur Aufrechterhaltung von 24/7 GPU-Instanzen. Die Einsparungen ergeben sich daraus, dass nur die tatsächliche Verarbeitungszeit plus wenige Minuten Start- und Beendigungs-Overhead bezahlt werden. Das Muster ist besonders effektiv für Workflows wie nächtliche Batch-Videoverarbeitung, On-Demand-transcoding oder ereignisgesteuerte AI-Analyse, bei denen die Auslastung von Natur aus intermittierend ist.

Kann das On-Off-Pattern Workloads bewältigen, die Hunderte von Videos parallel verarbeiten müssen?

Ja, MicrocosmWorks hat innerhalb des On-Off-Patterns eine Fan-Out-Architektur implementiert, die bei Eintreffen großer Batch-Jobs mehrere GPU-Worker parallel bereitstellt, Videodateien mithilfe einer Job-Warteschlange auf die Worker verteilt und alle Worker herunterfährt, sobald der Batch abgeschlossen ist. Das System verfolgt den Fortschritt pro Video, behandelt individuelle Videoausfälle mit Wiederholungslogik, ohne den Rest des Batches zu blockieren, und konsolidiert die Ergebnisse an einem einzigen Ausgabespeicherort für die nachgelagerte Weiterverarbeitung.

Was kostet die Implementierung des On-Off-Skalierungsmusters für KI- und Videoverarbeitungs-Workloads?

MicrocosmWorks implementiert On-Off-Skalierungsarchitekturen zu Entwicklungssätzen von 25-45 $/Std., wobei eine produktionsreife Implementierung, die Job-Orchestrierung, Infrastruktur-Bereitstellung, Monitoring und Fehlerbehandlung umfasst, typischerweise innerhalb von 3-5 Wochen geliefert wird. Die Entwicklungsinvestition amortisiert sich in der Regel innerhalb von 1-2 Monaten allein durch GPU-Kostenersparnisse, insbesondere für Organisationen, die derzeit Always-on-GPU-Instanzen betreiben, die mehr als 50 % des Tages im Leerlauf sind.

On-Off Scaling Pattern for AI & Video Processing Workload...

Ein/Aus-Skalierungsmuster für AI- und Videoverarbeitungs-Workloads

Eine AI-gestützte Videoverarbeitungsplattform musste hochvariable Workloads bewältigen – von null Aufträgen außerhalb der Geschäftszeiten bis zu Hunderten gleichzeitiger Videoverarbeitungs- und AI-Inferenzaufgaben in Spitzenzeiten – ohne für ungenutzte GPU- und Compute-Ressourcen zu bezahlen.

Ihr Projekt besprechen

Wir implementierten ein Ein/Aus-Skalierungsmuster – eine hybride Architektur, bei der Compute-Ressourcen Just-in-Time für aktive Workloads bereitgestellt und bei Untätigkeit vollständig freigegeben werden, mit Warm Pools für latenzsensitive Aufgaben und Cold Pools für Batch-Jobs.

Architektur

Job Queue: Datenbankgestützte Job Queue mit Prioritätsklassifizierung
Orchestrator: Service zur Verwaltung des Ressourcen-Lebenszyklus und der Job-Weiterleitung
GPU Workers (AI): Cloud GPU-Pods für Inference (Objekterkennung, Transkription, Sprechererkennung)
CPU Workers (Video): Cloud VMs für Video Encoding und Rendering
Warm Pool: Vorinitialisierte Instanzen für latenzsensitive Jobs (< 30s Startzeit)
Cold Pool: On-Demand-Instanzen für Batch-/Massenverarbeitung (2-5 Minuten Startzeit akzeptabel)

Implementierung des Ein/Aus-Musters

Ressourcen-Lebenszyklus-Zustände

Ressourcen durchlaufen einen definierten Lebenszyklus: von vollständig freigegeben (null Kosten), über die Bereitstellung und das Aufwärmen (Laden von Modellen, Health Checks), zu bereit- und Verarbeitungszuständen, dann durch ein Cooldown-Fenster, bevor sie wieder in den freigegebenen Zustand zurückkehren.

Warm Pool Strategie

Für latenzsensitive Verarbeitung (benutzerinitiiert, erwartet Ergebnisse in Minuten):

Aufrechterhaltung eines minimalen Warm Pool von Instanzen während der Geschäftszeiten
AI-Modelle beim Container-Start vorladen
Eingehende Jobs zuerst an warme Instanzen weiterleiten
Zusätzliche warme Instanzen skalieren, wenn die Warteschlangentiefe einen Schwellenwert überschreitet
Konfigurierbarer Cooldown-Timer hält Instanzen zwischen sporadischen Jobs am Leben

Cold Pool Strategie

Für Batch-Verarbeitung (nächtliche Massenaufträge, nicht dringende Re-Encodes):

Standardmäßig keine laufenden Instanzen
Job Queue löst die Bereitstellung aus, wenn Batch-Jobs eingereicht werden
Für Durchsatz statt Latenz optimierte Bulk-Instanzen
Sofort nach Abschluss des Batches beenden
Spot-/Preemptible-Instanzen für erhebliche Kosteneinsparungen nutzen

Job-Klassifizierung & Weiterleitung

Jobs werden automatisch nach Priorität und Typ klassifiziert und dann an den entsprechenden Pool weitergeleitet:

Hochprioritäre benutzerinitiierte AI-Aufgaben werden an warme GPU Pools weitergeleitet
Kritische Echtzeitaufgaben werden an Always-on dedizierte Instanzen weitergeleitet
Mittelprioritäre Encoding-Aufgaben werden an warme oder kalte CPU Pools weitergeleitet
Niedrigprioritäre Batch-Aufgaben werden an kalte Spot-/Preemptible-Instanzen weitergeleitet

Orchestrator-Logik

Scale-Up-Trigger

Warteschlangentiefe überschreitet konfigurierbaren Schwellenwert
Durchschnittliche Wartezeit überschreitet SLA für die Prioritätsstufe
Geplante Hochskalierung vor bekannten Spitzenzeiten
Manueller Trigger über admin API für erwartete Verkehrsspitzen

Scale-Down-Trigger

Keine Jobs während der Dauer des Cooldown-Fensters verarbeitet
Geplante Herunterskalierung nach Spitzenzeiten
Alle in der Warteschlange befindlichen Jobs abgeschlossen, ohne neue Einreichungen
Kostenschwelle für den Abrechnungszeitraum erreicht

Gesundheit & Wiederherstellung

Regelmäßige Health-Probes auf allen aktiven Instanzen
Unzuverlässige Instanzen werden automatisch ersetzt
Fehlgeschlagene Jobs werden mit Retry Count erneut in die Warteschlange gestellt und an eine andere Instanz weitergeleitet
Dead Letter Queue für Jobs, die die maximale Anzahl von Wiederholungsversuchen überschreiten

Kosten-Auswirkungen

Das Ein/Aus-Muster führte zu einer ungefähren 70%igen Kostenreduzierung im Vergleich zu einer Always-on-Festinfrastruktur, indem es ungenutzte Compute-Ressourcen außerhalb der Spitzenzeiten eliminierte, Ressourcen pro Job-Typ richtig dimensionierte und Spot-Instanzen für Batch-Workloads nutzte.

Hauptmerkmale

Null-Leerlaufkosten — Ressourcen werden bei Nichtverarbeitung von Jobs vollständig freigegeben
Warm Pools — Vorinitialisierte Instanzen für latenzsensitive Workloads
Cold Pools — On-Demand-Bereitstellung für Batch-Jobs zu geringsten Kosten
Job-Klassifizierung — Automatische Weiterleitung basierend auf Priorität, Typ und Latenzanforderungen
Cooldown Windows — Konfigurierbarer Leerlauf-Timeout verhindert vorzeitiges Herunterskalieren zwischen Bursts
Spot/Preemptible-Unterstützung — Batch-Jobs werden an rabattierte Instanzen weitergeleitet für erhebliche Einsparungen
Gesundheit & Wiederherstellung — Automatischer Austausch unzuverlässiger Instanzen mit Job-Wiederanreihung
Geplante Skalierung — Antizipation bekannter Verkehrsmuster mit zeitbasierten Bereitstellungsregeln

Ein/Aus-Skalierungsmuster für AI- und Videoverarbeitungs-Workloads

Die Herausforderung

Unsere Lösung

Architektur

Implementierung des Ein/Aus-Musters

Ressourcen-Lebenszyklus-Zustände

Warm Pool Strategie

Cold Pool Strategie

Job-Klassifizierung & Weiterleitung

Orchestrator-Logik

Scale-Up-Trigger

Scale-Down-Trigger

Gesundheit & Wiederherstellung

Kosten-Auswirkungen

Hauptmerkmale

Ergebnisse

Technologie-Stack

caseStudyDetail.more Fallstudien

Nutzung von RunPod für skalierbare, kostengünstige AI-Inferenz

Kickly: KI-gestützte Projektplattform für Startups

Bereit, Ihr Unternehmen zu transformieren?

KI-gestützte Rechnungsverarbeitung mit OCR und QuickBooks-Integration

Häufig gestellte Fragen