Що таке on-off scaling pattern і коли він кращий за традиційний auto-scaling для навантажень AI?

MicrocosmWorks розробила on-off scaling pattern для навантажень, які мають передбачувані сплески інтенсивної обробки на GPU, за якими йдуть тривалі періоди простою, де традиційний auto-scaling витрачає гроші на підтримку мінімальної потужності під час простоїв. Замість того, щоб підтримувати роботу "теплих" інстансів, цей pattern виділяє інфраструктуру GPU на вимогу, коли надходить завдання на обробку, виконує навантаження та повністю припиняє роботу інфраструктури після завершення, досягаючи майже нульової вартості під час простоїв.

Як on-off pattern мінімізує затримки "холодного старту" при виділенні інстансів GPU для чутливої до часу обробки AI?

MicrocosmWorks скоротила час "холодного старту" до менш ніж 60 секунд шляхом попереднього створення оптимізованих container images з усіма інтегрованими AI model weights та залежностями, що зберігаються в registry, географічно близькому до compute region. orchestration layer використовує проактивне виділення ресурсів для запланованих навантажень, запускаючи інфраструктуру за 2-3 хвилини до очікуваного попиту, а для непередбачуваних навантажень система ставить завдання в job queue і надсилає повідомлення про початок обробки, щоб користувачі знали, що їхній запит обробляється.

Скільки економії коштів забезпечує on-off pattern порівняно з безперервним запуском інстансів GPU?

MicrocosmWorks задокументувала 70-90% скорочення витрат для клієнтів, чиї навантаження обробки відео AI працюють 2-6 годин на день порівняно з підтримкою 24/7 інстансів GPU. Економія досягається за рахунок оплати лише фактичного часу обробки плюс кілька хвилин на запуск і завершення роботи, і pattern особливо ефективний для робочих процесів, таких як нічна пакетна обробка відео, транскодування на вимогу або AI аналіз, що запускається подіями, де використання за своєю суттю є переривчастим.

Чи може on-off pattern обробляти навантаження, які потребують паралельної обробки сотень відео?

Так, MicrocosmWorks реалізувала fan-out architecture в рамках on-off pattern, яка виділяє кілька GPU worker-ів паралельно, коли надходять великі пакетні завдання, розподіляє відеофайли між worker-ами за допомогою job queue і припиняє роботу всіх worker-ів після завершення пакетної обробки. Система відстежує прогрес кожного відео та обробляє окремі збої відео за допомогою логіки повторних спроб, не блокуючи решту пакету, і консолідує результати в одному вихідному розташуванні для подальшого використання.

Скільки коштує впровадження on-off scaling pattern для навантажень AI та обробки відео?

MicrocosmWorks впроваджує on-off scaling архітектури за тарифами розробки $25-$45/год, з готовою до виробництва реалізацією, що включає job orchestration, надання інфраструктури, моніторинг та обробку збоїв, яка зазвичай реалізується за 3-5 тижнів. Інвестиції в розробку, як правило, окупаються протягом 1-2 місяців лише за рахунок економії на витратах GPU, особливо для організацій, які наразі використовують постійно запущені інстанси GPU, що простоюють більше 50% дня.

On-Off Scaling Pattern for AI & Video Processing Workload...

Шаблон масштабування On-Off для робочих навантажень обробки AI та відео

Платформа для обробки відео на базі AI потребувала обробки високозмінних робочих навантажень — від нуля завдань у неробочий час до сотень одночасних завдань з обробки відео та AI-інференсу в пікові періоди — без оплати за простійні GPU та обчислювальні ресурси.

Обговоріть Ваш Проєкт

Робочі навантаження AI та обробки відео за своєю суттю є переривчастими та дорогими:

Інстанси GPU є дорогими, незалежно від того, чи обробляють вони завдання, чи простоюють
Кодування відео, транскрипція та AI-інференс вимагають різних профілів ресурсів
Співвідношення пік-до-мінімуму становило 50:1 — 200+ завдань у піковий період, майже нуль вночі
Традиційне авто-масштабування було занадто повільним (5-10 хвилин холодного старту) для чутливих до часу запитів користувачів
Фіксована інфраструктура, виділена для пікового навантаження, означала 80%+ втрат у непікові години

Ми реалізували шаблон масштабування On-Off — гібридну архітектуру, де обчислювальні ресурси надаються just-in-time для активних робочих навантажень і повністю звільняються, коли простоюють, з теплими пулами (warm pools) для завдань, чутливих до затримки, і холодними пулами (cold pools) для пакетних завдань.

Архітектура

Черга завдань (Job Queue): Черга завдань на основі бази даних з класифікацією за пріоритетом
Оркестратор (Orchestrator): Сервіс, що керує життєвим циклом ресурсів та маршрутизацією завдань
Робітники GPU (AI): Хмарні GPU-поди для інференсу (виявлення об'єктів, транскрипція, розпізнавання мовця)
Робітники CPU (Відео): Хмарні VM для кодування та рендерингу відео
Теплий пул (Warm Pool): Попередньо ініціалізовані інстанси для завдань, чутливих до затримки (< 30 секунд запуску)
Холодний пул (Cold Pool): Інстанси за запитом для пакетної/масової обробки (2-5 хвилин запуску є прийнятними)

Реалізація шаблону On-Off

Стани життєвого циклу ресурсів

Ресурси проходять визначений життєвий цикл: від повністю звільнених (нульова вартість), через виділення та розігрів (завантаження моделей, перевірки працездатності), до станів готовності та обробки, потім через період охолодження, перш ніж повернутися до звільненого стану.

Стратегія теплого пулу (Warm Pool)

Для обробки, чутливої до затримки (ініційованої користувачем, очікує результатів за хвилини):

Підтримувати мінімальний теплий пул інстансів у робочі години
Попередньо завантажувати AI-моделі під час запуску контейнера
Маршрутизувати вхідні завдання спочатку до теплих інстансів
Масштабувати додаткові теплі інстанси, коли глибина черги перевищує поріг
Налаштовуваний таймер охолодження підтримує інстанси активними між спорадичними завданнями

Стратегія холодного пулу (Cold Pool)

Для пакетної обробки (нічні масові завдання, нетермінові перекодування):

За замовчуванням нуль запущених інстансів
Черга завдань запускає виділення ресурсів, коли надсилаються пакетні завдання
Інстанси, оптимізовані для масової обробки, для пропускної здатності, а не затримки
Негайно завершувати роботу після завершення пакетної обробки
Використовувати spot/preemptible інстанси для значної економії коштів

Класифікація та маршрутизація завдань

Завдання автоматично класифікуються за пріоритетом та типом, а потім маршрутизуються до відповідного пулу:

Високопріоритетні AI-завдання, ініційовані користувачем, маршрутизуються до теплих GPU-пулів
Критичні завдання в реальному часі маршрутизуються до постійно активних виділених інстансів
Середньопріоритетні завдання кодування маршрутизуються до теплих або холодних CPU-пулів
Низькопріоритетні пакетні завдання маршрутизуються до холодних spot/preemptible інстансів

Логіка оркестратора (Orchestrator)

Тригери масштабування вгору (Scale-Up)

Глибина черги перевищує налаштовуваний поріг
Середній час очікування перевищує SLA для рівня пріоритету
Заплановане збільшення потужності перед відомими піковими годинами
Ручний запуск через admin API для очікуваних сплесків трафіку

Тригери масштабування вниз (Scale-Down)

Жодні завдання не оброблялися протягом періоду охолодження
Заплановане зниження потужності після пікових годин
Усі завдання в черзі завершені, нових надходжень немає
Досягнуто порогового значення вартості за розрахунковий період

Здоров'я та відновлення

Регулярні перевірки стану всіх активних інстансів
Несправні інстанси автоматично замінюються
Невдалі завдання повторно додаються в чергу з лічильником спроб і маршрутизуються до іншого інстанса
Dead letter queue для завдань, що перевищили максимальну кількість повторних спроб

Вплив на вартість

Шаблон On-Off забезпечив приблизно 70% зниження витрат порівняно з постійно працюючою фіксованою інфраструктурою, усуваючи простій обчислювальних ресурсів у непікові години, оптимізуючи розмір ресурсів для кожного типу завдання та використовуючи spot-інстанси для пакетних робочих навантажень.

Ключові особливості

Нульова вартість простою — Ресурси повністю звільняються, коли не обробляють завдання
Теплі пули (Warm Pools) — Попередньо ініціалізовані інстанси для робочих навантажень, чутливих до затримки
Холодні пули (Cold Pools) — Виділення ресурсів за запитом для пакетних завдань за найнижчою вартістю
Класифікація завдань — Автоматична маршрутизація на основі пріоритету, типу та вимог до затримки
Періоди охолодження (Cooldown Windows) — Налаштовуваний тайм-аут простою запобігає передчасному масштабуванню вниз між сплесками
Підтримка Spot/Preemptible — Пакетні завдання маршрутизуються до інстансів зі знижкою для значної економії
Здоров'я та відновлення — Автоматична заміна несправних інстансів з повторним додаванням завдань у чергу
Заплановане масштабування — Передбачення відомих шаблонів трафіку за допомогою правил виділення ресурсів за часом

Шаблон масштабування On-Off для робочих навантажень обробки AI та відео

Виклик

Наше Рішення

Архітектура

Реалізація шаблону On-Off

Стани життєвого циклу ресурсів

Стратегія теплого пулу (Warm Pool)

Стратегія холодного пулу (Cold Pool)

Класифікація та маршрутизація завдань

Логіка оркестратора (Orchestrator)

Тригери масштабування вгору (Scale-Up)

Тригери масштабування вниз (Scale-Down)

Здоров'я та відновлення

Вплив на вартість

Ключові особливості

Результати

Технологічний Стек

caseStudyDetail.more Кейси

Використання RunPod для масштабованого, економічно ефективного висновку AI

Обробка рахунків-фактур за допомогою AI, OCR та інтеграції з QuickBooks

Готові Трансформувати Свій Бізнес?

Вставка реклами на стороні клієнта (CSAI) з парсингом маркерів SCTE-35 та інтеграцією багатоплатформного плеєра

Часті запитання