MicrocosmWorksІнновації та архітектура цифрового космосу
Про насКонтакт
MicrocosmWorksІнновації та архітектура цифрового космосу

Надаємо IT-рішення, які мають значення. Ми захоплені технологіями, безпекою та допомогою бізнесу зростати завдяки надійній, інноваційній IT-інфраструктурі.

[email protected]
+91 7011868196
New Delhi, India

Центр зростання AI

AI HubІнновації для стартапівПрискорювач для підприємств

Рішення

Всі рішенняДодатки для здоров'я та фітнесуAI відео платформаРозробка AI агентів

Ресурси

ІнсайтиГалузеві ПосібникиШаблони ВикористанняАрхітектурні ШаблониКейси

Компанія

Про НасКонтактНаша Робота

Послуги

Цифровий КонсалтингХмарна ІнфраструктураРозробка SaaSРозробка AIВідео Технології
Розробка ERPНалаштування ZohoРозробка OdooІнтеграція SalesforceРозробка Користувацьких CRM
Інтеграція QuickBooksРішення IoTРозробка Блокчейну
Консалтинг з КібербезпекиІТ Підтримка - L3

© 2026 MicrocosmWorks. Усі права захищено.

Політика КонфіденційностіУмови Обслуговування
Повернутися до архітектурних закономірностей
InfrastructureAdvanced

Архітектура масштабування On-Off

Не платіть за простій GPU. Забезпечуйте обчислювальні ресурси just-in-time, обробляйте робоче навантаження та вимикайте їх — перетворюючи капітальні витрати на операційні витрати за кожне завдання.

June 18, 2026
|
2 topics covered
Обговоріть цю архітектуру
Infrastructure
Category
Advanced
Complexity
AI/ML, Медіа та розваги
Industries
2+
Technologies

Коли це Вам потрібно

Ваше робоче навантаження є нерівномірним — завдання кодування відео, які різко зростають при завантаженні контенту; запуски навчання ML, яким потрібно 8 GPU протягом 4 годин, а потім нічого; завдання пакетного інференсу, що запускаються бізнес-подіями; або конвеєри рендерингу, що працюють вночі. Ви або надлишково забезпечені ресурсами (платите за простій ресурсів 80% часу), або недостатньо забезпечені (завдання стоять у черзі годинами під час піків). Вам потрібна архітектура, яка надає рівно стільки обчислювальних ресурсів, скільки вам потрібно, коли вам це потрібно, і звільняє їх після завершення завдання — без штрафу за "холодний старт", який робить "scale to zero" непрактичним для робочих навантажень GPU.

Related Architecture Patterns

Explore more design patterns and system architectures

cloud-native-infrastructure.webp
Infrastructure

Хмарно-нативна інфраструктура

Інфраструктура, яка версіонується, тестується та розгортається як код програми — адже ваша платформа настільки ж надійна, наскільки надійною є її основа.

EnterpriseView
security-first-architecture.webp

Вам потрібна допомога у впровадженні цієї архітектури?

Наші архітектори можуть допомогти вам проектувати та будувати системи, використовуючи цей шаблон для ваших конкретних вимог.

Зв'яжіться з нами
on-off-scaling-architecture.webp

Огляд шаблону

Архітектура масштабування "on-off" керує обчислювальними ресурсами за допомогою гарячого/холодного пулу (warm/cold pooling), забезпечення ресурсів на основі черги завдань та автоматичного видалення (teardown). Теплий пул (warm pool) підтримує невелику кількість попередньо ініціалізованих екземплярів, готових до негайного використання. Холодний пул (cold pool) забезпечує додаткову потужність з spot/preemptible екземплярів, коли попит перевищує можливості теплого пулу. Оркестратор завдань (job orchestrator) направляє роботу до доступних екземплярів, відстежує прогрес, обробляє повторні спроби у разі припинення роботи spot екземплярів і запускає масштабування вниз (scale-down), коли черга спустошується. Цей шаблон особливо важливий для робочих навантажень GPU, де холодний старт (завантаження контейнера + завантаження моделі) може займати 3-10 хвилин.

Еталонна архітектура

Система зосереджена на черзі завдань (job queue) (SQS, Redis або кастомна), яка буферує вхідні запити на роботу. Контролер масштабування (scaling controller) відстежує глибину черги та забезпечує екземпляри спочатку з теплого пулу (warm pool), а потім з холодного пулу (cold pool) (spot instances). Кожен робочий екземпляр (worker instance) витягує завдання з черги, виконує робоче навантаження (кодування, навчання, інференс), повідомляє про завершення та повертається до пулу або завершує роботу. Менеджер контрольних точок (checkpoint manager) обробляє припинення роботи spot екземплярів, зберігаючи проміжний стан в S3, дозволяючи завданням відновлюватися на іншому екземплярі без початку з нуля.

Основні компоненти
  • Черга завдань та планувальник (Job Queue & Scheduler): Пріоритезована черга завдань з налаштовуваними лімітами одночасності для кожного типу завдань. Підтримує відкладене виконання, dead-letter queues для невдалих завдань та пріоритетні смуги (експрес-завдання отримують екземпляри з теплого пулу, стандартні завдання використовують холодний пул). AWS SQS, BullMQ на Redis або Temporal для складних робочих процесів
  • Менеджер теплого пулу (Warm Pool Manager): Підтримує N попередньо ініціалізованих екземплярів із завантаженими моделями в пам'ять GPU, запущеними контейнерами та успішними перевірками стану. Екземпляри проходять цикли: вільний → призначений → обробка → вільний. Розмір пулу можна налаштовувати за часом доби (більший у робочі години, менший вночі) та регулювати на основі історичних шаблонів попиту
  • Забезпечувач холодного пулу (Cold Pool Provisioner): Забезпечує додаткову потужність зі spot instances (AWS), preemptible VMs (GCP) або безсерверних GPU-провайдерів (RunPod, Modal, Salad). Обробляє сповіщення про переривання spot екземплярів, переносячи завдання на доступні екземпляри. Використовує диверсифіковану стратегію типів екземплярів (кілька типів GPU, кілька AZ) для максимізації доступності spot екземплярів
  • Контрольні точки та відновлення (Checkpoint & Recovery): Для довготривалих завдань (навчання ML, велике кодування відео) періодичне створення контрольних точок зберігає проміжний стан в S3. У разі припинення роботи spot екземпляра, завдання знову ставиться в чергу і відновлюється з останньої контрольної точки. Для коротких завдань (< 10 хв) вартість створення контрольних точок перевищує вартість перезапуску — ці завдання просто повторюються з нуля

Дизайнерські рішення та компроміси

Розмір теплого пулу (Warm Pool Size)
Теплий пул є компромісом між вартістю (плата за простій екземплярів) і затримкою (час холодного старту для першого завдання). MW масштабує теплі пули на основі шаблонів надходження черги: якщо завдання надходять безперервно протягом робочих годин, теплий пул покриває середню пропускну здатність; холодний пул покриває піки. Якщо завдання надходять непередбачуваними спалахами, ми тримаємо менший теплий пул і приймаємо затримку холодного старту для перших пакетних завдань, поки холодний пул забезпечує ресурси.
Spot Instances проти Serverless GPU (RunPod/Modal)
Spot instances дешевші за годину, але вимагають керування забезпеченням, обробкою виселення та життєвим циклом екземплярів. Провайдери Serverless GPU (RunPod Serverless, Modal, Banana) керують забезпеченням та пропонують посекундну тарифікацію, але за вищою тарифікацією за секунду обчислення. MW використовує spot instances для передбачуваних, довготривалих робочих навантажень (>30 хв) та serverless GPU для коротких, нерівномірних завдань (<10 хв), де накладні витрати на забезпечення домінували б.
Агресивність масштабування вниз (Scale-Down Aggressiveness)
Масштабування вниз занадто швидко призведе до оплати штрафів за холодний старт при надходженні наступного завдання. Масштабування вниз занадто повільно призведе до оплати за простій екземплярів. MW реалізує стратегію "охолодження зі спадом": після спустошення черги екземпляри залишаються теплими протягом налаштовуваного періоду (за замовчуванням: 10 хвилин). Якщо нові завдання не надходять, екземпляри поступово масштабуються вниз (50% через 10 хвилин, решта через 30 хвилин). Період охолодження можна налаштовувати, і він автоматично коригується на основі статистики часу між прибуттями.
Оптимізація завантаження моделі GPU (GPU Model Loading Optimization)
Для ML інференсу вузьким місцем холодного старту часто є завантаження моделі (завантаження з S3 + завантаження в пам'ять GPU), а не запуск контейнера. MW оптимізує це шляхом: (a) попереднього вбудовування моделей в образи контейнерів (для малих моделей), (b) використання спільного сховища NVMe між екземплярами з кешуванням моделі (для великих моделей), і (c) збереження екземплярів теплого пулу з моделями, попередньо завантаженими в пам'ять GPU.

Вибір технологій

РівеньТехнології
ОбчисленняAWS EC2 Spot (G5/P4), GCP Preemptible (A2/L4), RunPod Serverless, Modal
ОркестраціяKubernetes (Karpenter для автомасштабування), AWS Batch, кастомний оркестратор завдань
Черга завданьAWS SQS, BullMQ (Redis), Temporal, Celery
ЗберіганняS3 (контрольні точки, артефакти моделі), NVMe (кеш моделі), EFS (спільний робочий простір)
МоніторингCloudWatch/Prometheus (глибина черги, використання екземплярів, затримка завдань), кастомні панелі вартості

Коли використовувати / Коли уникати

Використовувати, колиУникати, коли
Робоче навантаження є нерівномірним — піковий попит перевищує середній у 5+ разівТрафік стабільний та передбачуваний — зарезервовані екземпляри відповідного розміру дешевші
Завдання GPU/високообчислювальні, які дорогі під час простоюРобоче навантаження є легким процесом CPU, що підходить для безсерверних рішень (Lambda)
Завдання можуть витримати холодний старт 1-5 хвилин для забезпечення холодного пулуПотрібна затримка запуску завдання менше секунди — вам потрібна завжди ввімкнена інфраструктура
Оптимізація вартості є основним пріоритетом, а spot pricing пропонує 60-90% економіїПереривання spot екземпляра призведе до втрати даних, яку не може пом'якшити контрольна точка

Наш підхід

MW розробляє масштабування "on-off" з урахуванням "вартості за завдання" — ми моделюємо загальну вартість обробки однієї одиниці роботи (одне відео, один запуск навчання, один пакетний інференс) за різними стратегіями масштабування та вибираємо ту, що мінімізує вартість при необхідному SLA затримки. Наші реалізації включають панелі вартості в реальному часі, які показують вартість за завдання, використання інфраструктури та економію на spot екземплярах. Ми створили інфраструктуру GPU "on-off", яка знизила витрати на обробку відео на 70% порівняно із зарезервованими екземплярами, та кластери для навчання ML, які забезпечують 64 GPU для 4-годинного запуску навчання та автоматично їх звільняють.

Пов'язані шаблони

  • Оркестрація кластера GPU для робочих навантажень AI — Забезпечення та оркестрація GPU для навчання ML
  • Система відеоспостереження AI в реальному часі — Пакетний інференс для подій відеоаналізу
  • Генератор моментів спортивних подій в реальному часі — Обробка відео на основі подій з пакетними обчисленнями

Пов'язані кейси

  • Обробка відео за шаблоном On-Off — Забезпечення GPU з теплим/холодним пулами для робочих навантажень кодування відео
  • Платформа кодування відео — Безсерверне та spot-кодування з автомасштабованими пулами воркерів
Related Technologies
Хмарні рішенняРозробка AI
Infrastructure

Архітектура з пріоритетом безпеки

Безпека – це не функція, яку додають після запуску. Це архітектурна властивість — система або була розроблена з її урахуванням, або ні.

EnterpriseView
serverless-first-architecture.webp
Infrastructure

Архітектура Serverless-First

Платіть лише за те, що використовуєте, масштабуйтеся до нуля, коли не використовуєте, і повністю припиніть керувати серверами — але знайте, коли економічна доцільність припиняє працювати.

AdvancedView

Часті запитання

Клієнти MicrocosmWorks з великою кількістю пакетних або періодичних робочих навантажень зазвичай спостерігають 60-80% скорочення витрат на хмару після впровадження on-off масштабування, оскільки обчислювальні ресурси працюють лише під час активних вікон обробки, а не 24/7. Ми розробляємо політики масштабування на основі фактичної телеметрії використання — наприклад, конвеєр обробки даних, що працює 4 години щодня, оплачує лише ці 4 години замість повних 24. Наші архітектори аналізують ваші моделі робочих навантажень під час фази дослідження, щоб спрогнозувати точну економію до початку будь-якого впровадження.

Час холодного старту варіюється від 2-3 секунд для контейнерних застосунків на попередньо розігрітих пулах вузлів до 5-10 хвилин для робочих навантажень, що вимагають спеціалізованих GPU інстансів або завантаження великих моделей, і MicrocosmWorks використовує кілька технік для мінімізації цієї затримки. Ми впроваджуємо предиктивне масштабування, що запускає ресурси до очікуваного попиту, використовуючи історичні моделі трафіку та заплановані події, а також використовуємо попереднє вивантаження образів контейнерів та резервування теплих пулів для робочих навантажень, чутливих до затримок. Для застосунків, які не можуть терпіти жодного холодного старту, ми підтримуємо мінімальний теплий базовий рівень, що агресивно масштабується вгору, коли з'являється попит.

MicrocosmWorks впроваджує реактивне авто-масштабування з агресивними політиками масштабування вгору, що запускаються глибиною черги, завантаженням CPU або спеціальними метриками застосунків, у поєднанні з більш поступовими політиками масштабування вниз, які включають періоди охолодження для уникнення надмірного перемикання. Ми налаштовуємо буфери надлишкового резервування під час подій масштабування вгору, щоб система передбачала постійне зростання, а не наздоганяла попит по одному інстансу. Для справді непередбачуваних сплесків, таких як флеш-розпродажі або вірусні події, ми попередньо виділяємо потужності, використовуючи керовані подіями тригери з вашого маркетингового або операційного календаря.

MicrocosmWorks застосовує on-off масштабування до баз даних, використовуючи безсерверні пропозиції баз даних, такі як Aurora Serverless, Neon або PlanetScale, які масштабують обчислювальні ресурси до нуля під час простою, зберігаючи сховище постійним та миттєво доступним. Для робочих навантажень зі станом, які не можуть використовувати безсерверні бази даних, ми впроваджуємо масштабування реплік для читання, що додає та видаляє репліки на основі навантаження запитів, зберігаючи мінімальний первинний інстанс завжди запущеним. Цей гібридний підхід надає клієнтам переваги масштабування для їхнього рівня даних без складності управління станом бази даних під час циклів зупинки та перезапуску.

MicrocosmWorks розгортає комплексну спостережуваність масштабування, яка відстежує кількість інстансів, затримку подій масштабування, невдалі спроби масштабування та розрив між бажаною та фактичною потужністю в реальному часі за допомогою дашбордів Grafana або Datadog. Ми налаштовуємо багатоканальні оповіщення про збої масштабування, тривале високе використання, що свідчить про занадто низьку стелю масштабування, та аномалії витрат, що вказують на неконтрольоване масштабування. Наші runbooks включають автоматизоване виправлення для поширених режимів відмови, таких як досягнення лімітів інстансів хмарного провайдера або виникнення помилок недостатньої потужності в певних зонах доступності.