Patrón de escalado On-Off para cargas de trabajo de procesamiento de video e AI
Una plataforma de procesamiento de video impulsada por AI necesitaba manejar cargas de trabajo altamente variables — desde cero trabajos durante horas no laborables hasta cientos de tareas concurrentes de procesamiento de video e inferencia de AI durante los picos de uso — sin pagar por recursos de GPU y cómputo inactivos.
Discuta Su Proyecto
El Desafío
Las cargas de trabajo de AI y procesamiento de video son inherentemente intermitentes y costosas:
- Las instancias de GPU son costosas, ya sea que estén procesando trabajos o inactivas
- La codificación de video, transcripción e inferencia de AI demandan diferentes perfiles de recursos
- La relación pico-valle era de 50:1 — más de 200 trabajos durante el pico, casi cero durante la noche
- El autoescalado tradicional era demasiado lento (arranque en frío de 5-10 min) para solicitudes de usuarios sensibles al tiempo
- La infraestructura fija provisionada para el pico significaba un desperdicio del 80%+ durante las horas de menor actividad
Nuestra Solución
Implementamos un patrón de escalado On-Off — una arquitectura híbrida donde los recursos de cómputo se provisionan justo a tiempo para cargas de trabajo activas y se desasignan completamente cuando están inactivos, con pools cálidos para tareas sensibles a la latencia y pools fríos para trabajos por lotes.
Arquitectura
- Cola de Trabajos: Cola de trabajos respaldada por base de datos con clasificación por prioridad
- Orquestador: Servicio que gestiona el ciclo de vida de los recursos y el enrutamiento de trabajos
- Trabajadores GPU (AI): Pods de GPU en la nube para inferencia (detección de objetos, transcripción, detección de hablantes)
- Trabajadores CPU (Video): VMs en la nube para codificación y renderización de video
- Pool Cálido: Instancias preinicializadas para trabajos sensibles a la latencia (arranque < 30s)
- Pool Frío: Instancias bajo demanda para procesamiento por lotes/masivo (arranque de 2-5 min aceptable)
Implementación del Patrón On-Off
Estados del Ciclo de Vida de los Recursos
Los recursos pasan por un ciclo de vida definido: desde completamente desasignados (costo cero), a través de aprovisionamiento y calentamiento (carga de modelos, comprobaciones de salud), a estados listos y en procesamiento, y luego a través de una ventana de enfriamiento antes de volver a ser desasignados.
Estrategia de Pool Cálido
Para procesamiento sensible a la latencia (iniciado por el usuario, espera resultados en minutos):
- Mantener un pool cálido mínimo de instancias durante las horas hábiles
- Precargar modelos de AI al inicio del contenedor
- Enrutar los trabajos entrantes a instancias cálidas primero
- Escalar horizontalmente instancias cálidas adicionales cuando la profundidad de la cola excede un umbral
- Un temporizador de enfriamiento configurable mantiene las instancias activas entre trabajos esporádicos
Estrategia de Pool Frío
Para procesamiento por lotes (trabajos masivos nocturnos, recodificaciones no urgentes):
- Cero instancias ejecutándose por defecto
- La cola de trabajos activa el aprovisionamiento cuando se envían trabajos por lotes
- Instancias optimizadas para volumen sobre latencia
- Terminar inmediatamente después de que el lote se complete
- Usar instancias spot/preemptible para ahorros significativos de costos
Clasificación y Enrutamiento de Trabajos
Los trabajos se clasifican automáticamente por prioridad y tipo, luego se enrutan al pool apropiado:
- Tareas de AI iniciadas por el usuario de alta prioridad se enrutan a pools de GPU cálidos
- Tareas en tiempo real críticas se enrutan a instancias dedicadas siempre activas
- Tareas de codificación de prioridad media se enrutan a pools de CPU cálidos o fríos
- Tareas por lotes de baja prioridad se enrutan a instancias spot/preemptible frías
Lógica del Orquestador
Desencadenantes de Escalado Vertical
- La profundidad de la cola excede el umbral configurable
- El tiempo de espera promedio excede el SLA para el nivel de prioridad
- Aumento programado antes de las horas pico conocidas
- Activación manual a través de la API de administración para picos de tráfico anticipados
Desencadenantes de Escalado Horizontal
- No se procesaron trabajos durante la ventana de enfriamiento
- Reducción programada después de las horas pico
- Todos los trabajos en cola completados sin nuevas solicitudes
- Umbral de costo alcanzado para el período de facturación
Salud y Recuperación
- Sondas de salud regulares en todas las instancias activas
- Instancias no saludables reemplazadas automáticamente
- Trabajos fallidos reenviados a la cola con contador de reintentos y enrutados a una instancia diferente
- Cola de mensajes fallidos para trabajos que exceden el máximo de reintentos
Impacto en el Costo
El patrón On-Off logró aproximadamente una reducción del 70% en costos en comparación con la infraestructura fija siempre activa, al eliminar el cómputo inactivo durante las horas de menor actividad, dimensionar los recursos adecuadamente por tipo de trabajo y aprovechar las instancias spot para cargas de trabajo por lotes.
Características Clave
- Costo Cero por Inactividad — Recursos completamente desasignados cuando no procesan trabajos
- Pools Cálidos — Instancias preinicializadas para cargas de trabajo sensibles a la latencia
- Pools Fríos — Aprovisionamiento bajo demanda para trabajos por lotes al menor costo
- Clasificación de Trabajos — Enrutamiento automático basado en prioridad, tipo y requisitos de latencia
- Ventanas de Enfriamiento — Tiempo de inactividad configurable que previene el escalado descendente prematuro entre ráfagas
- Soporte Spot/Preemptible — Trabajos por lotes enrutados a instancias con descuento para ahorros significativos
- Salud y Recuperación — Reemplazo automático de instancias no saludables con reencolado de trabajos
- Escalado Programado — Anticipa patrones de tráfico conocidos con reglas de aprovisionamiento basadas en tiempo
Resultados
Stack Tecnológico
caseStudyDetail.more Casos de Estudio
Explore más de nuestras implementaciones técnicas
Aprovechando RunPod para una inferencia de IA escalable y rentable
Una plataforma de análisis de video impulsada por AI necesitaba computación GPU de alto rendimiento para la detección de objetos y la inferencia en tiempo real en múltiples transmisiones de video concurrentes, sin el costo prohibitivo de los servidores GPU dedicados que funcionan 24/7.
Procesamiento de Facturas Potenciado por AI con OCR e Integración con QuickBooks
Una empresa de tamaño mediano que procesa cientos de facturas de proveedores mensualmente necesitaba eliminar la entrada de datos manual extrayendo automáticamente los datos de las facturas usando AI/OCR y sincronizándolos directamente en QuickBooks para la contabilidad y el seguimiento de pagos.
¿Listo para Transformar su Negocio?
Hablemos sobre cómo podemos aplicar soluciones similares a sus desafíos.