MicrocosmWorksІнновації та архітектура цифрового космосу
Про насКонтакт
MicrocosmWorksІнновації та архітектура цифрового космосу

Надаємо IT-рішення, які мають значення. Ми захоплені технологіями, безпекою та допомогою бізнесу зростати завдяки надійній, інноваційній IT-інфраструктурі.

[email protected]
+91 7011868196
New Delhi, India

Центр зростання AI

AI HubІнновації для стартапівПрискорювач для підприємств

Рішення

Всі рішенняДодатки для здоров'я та фітнесуAI відео платформаРозробка AI агентів

Ресурси

ІнсайтиГалузеві ПосібникиШаблони ВикористанняАрхітектурні ШаблониКейси

Компанія

Про НасКонтактНаша Робота

Послуги

Цифровий КонсалтингХмарна ІнфраструктураРозробка SaaSРозробка AIВідео Технології
Розробка ERPНалаштування ZohoРозробка OdooІнтеграція SalesforceРозробка Користувацьких CRM
Інтеграція QuickBooksРішення IoTРозробка Блокчейну
Консалтинг з КібербезпекиІТ Підтримка - L3

© 2026 MicrocosmWorks. Усі права захищено.

Політика КонфіденційностіУмови Обслуговування
Назад до Кейсів
GPU InfrastructureОпубліковано June 22, 2026 · Оновлено June 22, 2026

Шаблон масштабування On-Off для робочих навантажень AI та обробки відео

Платформа для обробки відео на базі AI потребувала обробки дуже мінливих робочих навантажень — від нуля завдань у неробочий час до сотень одночасних завдань з обробки відео та AI inference під час пікових навантажень — не сплачуючи за простій GPU та обчислювальні ресурси.

Обговоріть Ваш Проєкт
on-off-pattern-ai-video-processing.webp
GPU Infrastructure
Domain
10
Technologies
5
Key Results
Delivered
Status

Виклик

Робочі навантаження AI та обробки відео за своєю суттю є переривчастими та дорогими:

  • GPU instances є дорогими незалежно від того, чи обробляють вони завдання, чи простоюють
  • Video encoding, transcription та AI inference вимагають різних профілів ресурсів
  • Співвідношення пікового до мінімального навантаження становило 50:1 — понад 200 завдань під час піку, майже нуль вночі
  • Традиційне auto-scaling було занадто повільним (5-10 хвилин cold start) для чутливих до часу запитів користувачів
  • Фіксована інфраструктура, виділена для пікових навантажень, означала 80%+ втрат у непікові години

Наше Рішення

Ми реалізували шаблон масштабування On-Off — гібридну архітектуру, де обчислювальні ресурси надаються just-in-time для активних робочих навантажень і повністю звільняються, коли простоюють, з warm pools для завдань, чутливих до затримки, і cold pools для пакетних завдань.

Архітектура

  • Черга завдань (Job Queue): Черга завдань на основі бази даних з класифікацією пріоритетів
  • Оркестратор (Orchestrator): Сервіс, що керує життєвим циклом ресурсів та маршрутизацією завдань
  • GPU Workers (AI): Cloud GPU pods для inference (розпізнавання об'єктів, транскрипція, розпізнавання мовців)
  • CPU Workers (Відео): Cloud VMs для video encoding та rendering
  • Warm Pool: Попередньо ініціалізовані instances для завдань, чутливих до затримки (< 30 секунд запуску)
  • Cold Pool: On-demand instances для batch/bulk обробки (2-5 хвилин запуску є прийнятними)

Реалізація шаблону On-Off

Стани життєвого циклу ресурсів

Ресурси проходять визначений життєвий цикл: від повністю звільнених (нульова вартість), через виділення та розігрів (завантаження моделей, перевірки працездатності), до станів готовності та обробки, потім через cooldown window перед поверненням до стану звільнення.

Стратегія Warm Pool

Для обробки, чутливої до затримки (ініційована користувачем, очікує результатів за хвилини):

  • Підтримувати мінімальний warm pool instances протягом робочих годин
  • Попередньо завантажувати AI моделі під час запуску контейнера
  • Маршрутизувати вхідні завдання спочатку до warm instances
  • Масштабувати додаткові warm instances, коли глибина черги перевищує поріг
  • Налаштовуваний cooldown timer підтримує instances активними між спорадичними завданнями

Стратегія Cold Pool

Для пакетної обробки (нічні об'ємні завдання, нетермінові повторні кодування):

  • За замовчуванням нуль instances працюють
  • Черга завдань (Job queue) запускає виділення ресурсів при надходженні пакетних завдань
  • Instances, оптимізовані для bulk обробки, з пріоритетом пропускної здатності над затримкою
  • Завершувати роботу негайно після завершення пакета
  • Використовувати spot/preemptible instances для значної економії коштів

Класифікація та маршрутизація завдань

Завдання автоматично класифікуються за пріоритетом та типом, потім маршрутизуються до відповідного пулу:

  • Високопріоритетні AI завдання, ініційовані користувачем, маршрутизуються до warm GPU pools
  • Критичні real-time завдання маршрутизуються до постійно активних dedicated instances
  • Середньопріоритетні encoding завдання маршрутизуються до warm або cold CPU pools
  • Низькопріоритетні batch завдання маршрутизуються до cold spot/preemptible instances

Логіка оркестратора

Тригери масштабування вгору

  • Глибина черги перевищує налаштовуваний поріг
  • Середній час очікування перевищує SLA для рівня пріоритету
  • Заплановане нарощування до відомих пікових годин
  • Ручний тригер через admin API для очікуваних піків трафіку

Тригери масштабування вниз

  • Жодне завдання не оброблялося протягом cooldown window
  • Заплановане згортання після пікових годин
  • Всі завдання в черзі виконано, без нових надходжень
  • Досягнуто порогового значення вартості для розрахункового періоду

Моніторинг стану та відновлення

  • Регулярні health probes на всіх активних instances
  • Несправні instances автоматично замінюються
  • Невдалі завдання повторно ставляться в чергу з лічильником спроб і маршрутизуються до іншого instance
  • Dead letter queue для завдань, що перевищили максимальну кількість спроб

Вплив на витрати

Шаблон On-Off забезпечив приблизно 70% зниження витрат порівняно з постійно активною фіксованою інфраструктурою шляхом усунення простою обчислювальних ресурсів у непікові години, оптимізації розміру ресурсів для кожного типу завдань та використання spot instances для пакетних робочих навантажень.

Основні функції

  1. Нульова вартість простою — Ресурси повністю звільняються, коли не обробляють завдання
  2. Warm Pools — Попередньо ініціалізовані instances для робочих навантажень, чутливих до затримки
  3. Cold Pools — On-demand виділення ресурсів для пакетних завдань за найнижчою вартістю
  4. Класифікація завдань — Автоматична маршрутизація на основі пріоритету, типу та вимог до затримки
  5. Cooldown Windows — Налаштовуваний тайм-аут простою запобігає передчасному масштабуванню вниз між сплесками
  6. Підтримка Spot/Preemptible — Пакетні завдання маршрутизуються до instances зі знижкою для значної економії
  7. Моніторинг стану та відновлення — Автоматична заміна несправних instances з повторним додаванням завдань у чергу
  8. Заплановане масштабування — Передбачення відомих шаблонів трафіку за допомогою правил виділення ресурсів за часом

Результати

Зниження витрат: ~70% економії порівняно з постійно активною фіксованою інфраструктурою
Затримка: < 30 секунд від cold-to-ready для warm pool instances
Надійність: Автоматичне відновлення та повторне додавання завдань у чергу забезпечили показник успішного завершення завдань 99.5%+

Технологічний Стек

Node.jsMongoDBRunPod APICloud VM APIsDockerFastAPIFFmpegRedisJob QueueCron Scheduling

caseStudyDetail.more Кейси

Ознайомтесь з іншими нашими технічними впровадженнями

GPU Infrastructure

Використання RunPod для масштабованого, економічно ефективного висновку AI

Платформа відеоаналітики на базі AI потребувала високопродуктивних GPU обчислень для виявлення об'єктів у реальному часі та висновку через декілька паралельних відеопотоків — без надмірної вартості виділених GPU серверів, що працюють 24/7.

Читати Кейс
AI Accounting

Обробка рахунків-фактур за допомогою AI, OCR та інтеграції з QuickBooks

Середній бізнес, який щомісяця обробляє сотні рахунків-фактур від постачальників, потребував усунення ручного введення даних шляхом автоматичного вилучення даних рахунків-фактур за допомогою AI/OCR та їх прямої синхронізації з QuickBooks для ведення бухгалтерського обліку та відстеження платежів.

Читати Кейс

Готові Трансформувати Свій Бізнес?

Давайте обговоримо, як ми можемо застосувати подібні рішення для ваших завдань.

Зв'язатися з НамиcaseStudyDetail.viewAllCaseStudies
Гнучкість: Різні GPU/CPU tiers для різних типів завдань оптимізували вартість за завдання
Масштаб: Обробка понад 200 одночасних завдань під час пікових навантажень без попередньо виділеної інфраструктури в непіковий час
Video Encoding

Вставка реклами на стороні клієнта (CSAI) з парсингом маркерів SCTE-35 та інтеграцією багатоплатформного плеєра

Платформа потокового відео потребувала впровадження вставки реклами на стороні клієнта (CSAI) для веб-, мобільних програм та програм для підключених телевізорів — що забезпечує персоналізований рекламний досвід на рівні пристрою з повною підтримкою взаємодії з рекламою (натискні оверлеї, супутні банери, кнопки пропуску), який не може забезпечити вставка на стороні сервера.

Читати Кейс

Часті запитання

MicrocosmWorks розробила патерн on-off масштабування для робочих навантажень, які мають передбачувані сплески інтенсивної обробки на GPU, за якими слідують тривалі періоди простою, де традиційне автомасштабування марнує гроші, підтримуючи мінімальну потужність під час простою. Замість того, щоб підтримувати запущені "теплі" інстанси, патерн надає GPU інфраструктуру за запитом, коли надходить завдання на обробку, виконує робоче навантаження та повністю припиняє роботу інфраструктури після завершення, досягаючи майже нульових витрат у періоди простою.

MicrocosmWorks скоротив час холодного старту до менш ніж 60 секунд шляхом попереднього створення оптимізованих образів контейнерів з усіма вбудованими вагами моделі AI та залежностями, збережених у реєстрі, географічно близькому до регіону обчислень. Рівень оркестровки використовує прогностичне виділення ресурсів для запланованих робочих навантажень, запускаючи інфраструктуру за 2-3 хвилини до очікуваного попиту, а для непередбачуваних робочих навантажень система ставить завдання в чергу та надсилає сповіщення про початок обробки, щоб користувачі знали, що їхній запит обробляється.

MicrocosmWorks задокументував скорочення витрат на 70-90% для клієнтів, чиї робочі навантаження з обробки відео за допомогою AI працюють 2-6 годин на день, порівняно з підтримкою цілодобових (24/7) інстансів GPU. Економія полягає в оплаті лише фактичного часу обробки плюс кілька хвилин накладних витрат на запуск і завершення роботи, і цей on-off pattern особливо ефективний для робочих процесів, таких як нічна пакетна обробка відео, транскодування за запитом або AI аналіз, що запускається подіями, де використання за своєю природою є переривчастим.

Так, MicrocosmWorks реалізувала архітектуру fan-out в рамках шаблону on-off, яка забезпечує паралельне розгортання кількох GPU воркерів при надходженні великих пакетних завдань, розподіляє відеофайли між воркерами за допомогою черги завдань і вимикає всі воркери після завершення пакета. Система відстежує прогрес кожного відео та обробляє окремі збої відео за допомогою логіки повторних спроб, не блокуючи решту пакета, а також консолідує результати в єдине вихідне розташування для подальшого споживання.

MicrocosmWorks впроваджує архітектури масштабування on-off за ставками розробки від $25 до $45 за годину, причому готове до виробництва впровадження, що включає оркестрацію завдань, забезпечення інфраструктури, моніторинг та обробку збоїв, зазвичай постачається протягом 3-5 тижнів. Інвестиції в розробку зазвичай окупаються протягом 1-2 місяців лише за рахунок економії витрат на GPU, особливо для організацій, які наразі використовують постійно увімкнені екземпляри GPU, які простоюють понад 50% дня.