MicrocosmWorksІнновації та архітектура цифрового космосу
Про насКонтакт
MicrocosmWorksІнновації та архітектура цифрового космосу

Надаємо IT-рішення, які мають значення. Ми захоплені технологіями, безпекою та допомогою бізнесу зростати завдяки надійній, інноваційній IT-інфраструктурі.

[email protected]
+91 7011868196
New Delhi, India

Центр зростання AI

AI HubІнновації для стартапівПрискорювач для підприємств

Рішення

Всі рішенняДодатки для здоров'я та фітнесуAI відео платформаРозробка AI агентів

Ресурси

ІнсайтиГалузеві ПосібникиШаблони ВикористанняАрхітектурні ШаблониКейси

Компанія

Про НасКонтактНаша Робота

Послуги

Цифровий КонсалтингХмарна ІнфраструктураРозробка SaaSРозробка AIВідео Технології
Розробка ERPНалаштування ZohoРозробка OdooІнтеграція SalesforceРозробка Користувацьких CRM
Інтеграція QuickBooksРішення IoTРозробка Блокчейну
Консалтинг з КібербезпекиІТ Підтримка - L3

© 2026 MicrocosmWorks. Усі права захищено.

Політика КонфіденційностіУмови Обслуговування
Повернутися до архітектурних закономірностей
InfrastructureAdvanced

Архітектура Масштабування Ввімкнення-Вимкнення

Не платіть за бездіяльні GPU. Забезпечте обчислювальні ресурси вчасно, обробіть робоче навантаження та знищте їх — перетворюючи капітальні витрати на операційні витрати за роботу.

June 22, 2026
|
2 topics covered
Обговоріть цю архітектуру
Infrastructure
Category
Advanced
Complexity
AI/ML, Медіа та розваги
Industries
2+
Technologies

Коли це потрібно

Ваше робоче навантаження є сплесковим — завдання кодування відео, які зростають, коли завантажується контент, запуски навчання ML, які потребують 8 GPU протягом 4 годин, а потім нічого, завдання пакетного інференсу, що запускаються бізнес-подіями, або рендеринг, що виконується вночі. Ви або перепроєктовані (платите за бездіяльні ресурси 80% часу), або недопроєктовані (завдання стоять у черзі годинами під час піків). Вам потрібна архітектура, яка забезпечує саме ті обчислювальні ресурси, які вам потрібні, коли вони потрібні, і звільняє їх, коли завдання завершено — без штрафу за холодний старт, що робить "масштабування до нуля" непрактичним для GPU-навантажень.

Related Architecture Patterns

Explore more design patterns and system architectures

cloud-native-infrastructure.webp
Infrastructure

Хмарно-нативна інфраструктура

Інфраструктура, яка версіонується, тестується та розгортається як код програми — адже ваша платформа настільки ж надійна, наскільки надійною є її основа.

EnterpriseView
security-first-architecture.webp

Вам потрібна допомога у впровадженні цієї архітектури?

Наші архітектори можуть допомогти вам проектувати та будувати системи, використовуючи цей шаблон для ваших конкретних вимог.

Зв'яжіться з нами
on-off-scaling-architecture.webp

Огляд шаблону

Архітектура масштабування ввімкнення-вимкнення керує обчислювальними ресурсами через теплі/холодні пули, забезпечення за допомогою черги завдань та автоматичне знищення. Теплий пул підтримує невелику кількість попередньо ініціалізованих інстансів, готових до негайного використання. Холодний пул забезпечує додаткову ємність з інстансів spot/preemptible, коли попит перевищує теплий пул. Оркестратор завдань направляє роботу на доступні інстанси, контролює прогрес, обробляє повторні спроби при виселенні spot та запускає масштабування вниз, коли черга спорожняється. Шаблон є особливо критичним для GPU-навантажень, де холодний старт (завантаження контейнера + завантаження моделі) може зайняти 3-10 хвилин.

Референсна архітектура

Система зосереджена на черзі завдань (SQS, Redis або користувацька), яка буферизує вхідні запити на роботу. Контролер масштабування контролює глибину черги та забезпечує інстанси спочатку з теплого пулу, потім з холодного пулу (інстанси spot). Кожен інстанс робітника витягує завдання з черги, виконує робоче навантаження (кодування, навчання, інференс), повідомляє про завершення та повертається в пул або завершує роботу. Менеджер контрольних точок обробляє виселення spot, зберігаючи проміжний стан на S3, дозволяючи завданням відновлюватися на іншому інстансі без повторного початку.

Основні компоненти
  • Черга завдань та планувальник: Пріоритетна черга завдань з конфігурованими обмеженнями на одночасність для кожного типу завдань. Підтримує відкладене виконання, черги невдалих завдань та пріоритетні лінії (експрес-завдання отримують інстанси теплого пулу, стандартні завдання використовують холодний пул). AWS SQS, BullMQ на Redis або Temporal для складних робочих процесів
  • Менеджер теплого пулу: Підтримує N попередньо ініціалізованих інстансів з завантаженими моделями в пам'ять GPU, запущеними контейнерами та пройденими перевірками здоров'я. Інстанси циклічно проходять: бездіяльність → призначено → обробка → бездіяльність. Розмір пулу конфігурується за часом доби (більший протягом робочих годин, менший вночі) та регулюється на основі історичних шаблонів попиту
  • Постачальник холодного пулу: Забезпечує додаткову ємність з інстансів spot (AWS), попереджувальних ВМ (GCP) або серверлес-постачальників GPU (RunPod, Modal, Salad). Обробляє повідомлення про переривання spot, переміщуючи завдання на доступні інстанси. Використовує стратегію диверсифікованих типів інстансів (різні типи GPU, різні AZ) для максимізації доступності spot
  • Контрольна точка та відновлення: Для довготривалих завдань (навчання ML, велике кодування відео) періодичне збереження контрольних точок зберігає проміжний стан на S3. При виселенні spot завдання повторно ставиться в чергу та відновлюється з останньої контрольної точки. Для коротких завдань (< 10 хв) вартість збереження контрольних точок перевищує вартість повторного запуску — ці завдання просто повторюються з нуля

Рішення дизайну та компроміси

Розмір теплого пулу
Теплий пул є компромісом між вартістю (оплата за бездіяльні інстанси) та затримкою (час холодного старту для першого завдання). MW визначає розміри теплих пулів на основі шаблонів прибуття черги: якщо завдання прибувають постійно протягом робочих годин, теплий пул покриває середню пропускну здатність; холодний пул покриває піки. Якщо завдання прибувають у непередбачуваних сплесках, ми тримаємо менший теплий пул і приймаємо затримку холодного старту для перших сплескових завдань, поки холодний пул забезпечується.
Інстанси Spot проти серверлес GPU (RunPod/Modal)
Інстанси Spot дешевші за годину, але вимагають від вас управління забезпеченням, обробкою виселення та життєвим циклом інстансів. Серверлес-постачальники GPU (RunPod Serverless, Modal, Banana) обробляють забезпечення та пропонують оплату за секунду, але за вищою ставкою за обчислювальну секунду. MW використовує інстанси Spot для передбачуваних, довготривалих навантажень (>30 хв) та серверлес GPU для коротких, сплескових завдань (<10 хв), де накладні витрати на забезпечення домінували б.
Агресивність масштабування вниз
Масштабування вниз занадто швидко, і ви платите штрафи за холодний старт, коли прибуває наступне завдання. Масштабування вниз занадто повільно, і ви платите за бездіяльні інстанси. MW реалізує стратегію "охолодження з розпадом": після спорожнення черги інстанси залишаються теплими протягом конфігурованого періоду (за замовчуванням: 10 хвилин). Якщо нові завдання не прибувають, інстанси масштабуються вниз поступово (50% через 10 хв, решта через 30 хв). Період охолодження налаштовується та автоматично регулюється на основі статистики міжприбуткових часів.
Оптимізація завантаження моделей GPU
Для інференсу ML вузьким місцем холодного старту часто є завантаження моделі (завантаження з S3 + завантаження в пам'ять GPU), а не запуск контейнера. MW оптимізує це шляхом: (а) попереднього вбудовування моделей у зображення контейнерів (для малих моделей), (б) використання спільного NVMe зберігання між інстансами з кешуванням моделей (для великих моделей), та (в) підтримки інстансів теплого пулу з попередньо завантаженими моделями в пам'ять GPU.

Вибір технологій

ШарТехнології
ОбчисленняAWS EC2 Spot (G5/P4), GCP Preemptible (A2/L4), RunPod Serverless, Modal
ОркестраціяKubernetes (Karpenter для автоматичного масштабування), AWS Batch, користувацький оркестратор завдань
Черга завданьAWS SQS, BullMQ (Redis), Temporal, Celery
ЗберіганняS3 (контрольні точки, артефакти моделей), NVMe (кеш моделей), EFS (спільний робочий простір)
МоніторингCloudWatch/Prometheus (глибина черги, використання інстансів, затримка завдань), користувацькі інформаційні панелі витрат

Коли використовувати / Коли уникати

Використовувати колиУникати коли
Робоче навантаження є сплесковим — піковий попит у 5 разів перевищує середній попитТрафік стабільний і передбачуваний — правильно розмірені зарезервовані інстанси дешевші
GPU/високі обчислювальні завдання, які дорогі у бездіяльностіРобоче навантаження є легким процесором, що підходить для серверлес (Lambda)
Завдання можуть терпіти 1-5 хвилинний холодний старт для забезпечення холодного пулуПотрібна затримка запуску завдань менше секунди — вам потрібна інфраструктура завжди увімкнена
Оптимізація витрат є основною турботою, і ціноутворення spot пропонує 60-90% заощадженьПереривання spot спричинить втрату даних, яку контрольні точки не можуть пом'якшити

Наш підхід

MW проектує масштабування ввімкнення-вимкнення з поглядом на "вартість за завдання" — ми моделюємо загальну вартість обробки одного одиниці роботи (одне відео, один запуск навчання, один пакетний інференс) за різними стратегіями масштабування та вибираємо ту, яка мінімізує вартість при необхідному SLA затримки. Наші реалізації включають інформаційні панелі витрат у реальному часі, які показують вартість за завдання, використання інфраструктури та заощадження spot. Ми побудували інфраструктуру GPU з масштабуванням ввімкнення-вимкнення, яка знизила витрати на обробку відео на 70% у порівнянні з зарезервованими інстансами, та кластери навчання ML, які забезпечують 64 GPU для 4-годинного запуску навчання та автоматично звільняють їх.

Пов'язані шаблони

  • Оркестрація кластерів GPU для AI-навантажень — забезпечення та оркестрація GPU для навчання ML
  • Система реального часу AI відеоспостереження — сплесковий інференс для подій аналізу відео
  • Генератор спортивних моментів у реальному часі — обробка відео, що керується подіями, з сплесковими обчисленнями

Пов'язані кейс-стаді

  • Обробка відео за шаблоном ввімкнення-вимкнення — забезпечення GPU з теплими/холодними пулами для завдань кодування відео
  • Платформа кодування відео — серверлес та кодування на основі spot з автоматично масштабованими пулами робітників
Related Technologies
Хмарні рішенняРозробка AI
Infrastructure

Архітектура з пріоритетом безпеки

Безпека – це не функція, яку додають після запуску. Це архітектурна властивість — система або була розроблена з її урахуванням, або ні.

EnterpriseView
serverless-first-architecture.webp
Infrastructure

Архітектура Serverless-First

Платіть лише за те, що використовуєте, масштабуйтеся до нуля, коли не використовуєте, і повністю припиніть керувати серверами — але знайте, коли економічна доцільність припиняє працювати.

AdvancedView

Часті запитання

Клієнти MicrocosmWorks з інтенсивними пакетними або періодичними робочими навантаженнями зазвичай спостерігають 60-80% зниження витрат на хмарні ресурси після впровадження on-off масштабування, оскільки обчислювальні ресурси працюють лише під час активних вікон обробки замість 24/7. Ми розробляємо політики масштабування на основі фактичної телеметрії використання — наприклад, конвеєр обробки даних, що працює 4 години щодня, оплачує лише ці 4 години замість повних 24. Наші архітектори аналізують ваші моделі робочих навантажень під час етапу дослідження, щоб спрогнозувати точну економію до початку будь-якої реалізації.

Час холодного старту варіюється від 2-3 секунд для контейнеризованих застосунків на попередньо розігрітих пулах вузлів до 5-10 хвилин для робочих навантажень, що вимагають спеціалізованих екземплярів GPU або завантаження великих моделей, і MicrocosmWorks використовує кілька методів для мінімізації цієї затримки. Ми впроваджуємо предиктивне масштабування, яке запускає ресурси до очікуваного попиту, використовуючи історичні патерни трафіку та заплановані події, і ми використовуємо попереднє завантаження образів контейнерів та резервування теплих пулів для робочих навантажень, чутливих до затримок. Для застосунків, які не можуть терпіти жодного холодного старту, ми підтримуємо мінімальну теплу базову лінію, яка агресивно масштабується вгору при виникненні попиту.

MicrocosmWorks реалізує реактивне автомасштабування з агресивними політиками масштабування вгору, що спрацьовують за глибиною черги, завантаженням CPU або власними метриками застосунків, у поєднанні з більш поступовими політиками масштабування вниз, що включають періоди охолодження, щоб уникнути надмірних коливань. Ми налаштовуємо буфери надлишкового резервування під час подій масштабування вгору, щоб система передбачала постійне зростання, замість того, щоб задовольняти попит по одному інстансу. Для справді непередбачуваних стрибків, таких як флеш-розпродажі або вірусні події, ми попередньо резервуємо потужності, використовуючи подієво-орієнтовані тригери з вашого маркетингового або операційного календаря.

MicrocosmWorks застосовує on-off scaling до баз даних, використовуючи пропозиції serverless баз даних, такі як Aurora Serverless, Neon або PlanetScale, які масштабують compute до нуля під час періодів простою, зберігаючи при цьому сховище постійним та миттєво доступним. Для stateful workloads, які не можуть використовувати serverless баз даних, ми впроваджуємо read-replica scaling, яке додає та видаляє репліки на основі навантаження запитів, зберігаючи при цьому мінімальний primary instance завжди запущеним. Цей гібридний підхід надає клієнтам переваги масштабування щодо витрат для їхнього data tier без складності керування станом бази даних під час циклів зупинки та перезапуску.

MicrocosmWorks розгортає комплексну спостережуваність масштабування, яка відстежує кількість інстансів, затримку подій масштабування, невдалі спроби масштабування та розрив між бажаною та фактичною потужністю в реальному часі за допомогою дашбордів Grafana або Datadog. Ми налаштовуємо багатоканальні сповіщення щодо збоїв масштабування, тривалої високої завантаженості, що свідчить про те, що верхня межа масштабування занадто низька, та аномалій витрат, які вказують на неконтрольоване масштабування. Наші ранербуки включають автоматизоване усунення для поширених типів збоїв, таких як досягнення лімітів інстансів хмарного провайдера або виникнення помилок недостатньої потужності в конкретних зонах доступності.