Використання RunPod для масштабованого, економічно ефективного висновку AI
Платформа відеоаналітики на базі AI потребувала високопродуктивних GPU обчислень для виявлення об'єктів у реальному часі та висновку через декілька паралельних відеопотоків — без надмірної вартості виділених GPU серверів, що працюють 24/7.
Обговоріть Ваш Проєкт
Виклик
Інфраструктура GPU для робочих навантажень AI створювала дилему вартості та продуктивності:
- Виділені GPU сервери від великих хмарних провайдерів коштували тисячі на місяць за екземпляр
- Робочі навантаження були змінними — в пікові години вимагалося в 4-8 разів більше потужності GPU, ніж у непікові години
- Час холодного старту у безсерверних GPU провайдерів був занадто повільним (30-60 секунд) для висновку в реальному часі
- Завантаження моделі вимагало значної VRAM та часу запуску
- Прив'язка до одного хмарного провайдера обмежувала можливості для переговорів та опції відмовостійкості
Наше Рішення
Ми застосували RunPod як шар GPU обчислень, використовуючи їхні GPU екземпляри за запитом та спотові для виконання робочих навантажень висновку AI за частку від традиційних витрат на хмарні GPU, з архітектурою "теплих" екземплярів для мінімізації холодних стартів.
Архітектура
- Обчислення: GPU поди RunPod для робочих навантажень висновку, з вибором рівня GPU для кожного навантаження
- Оркестрація: Оркестратор FastAPI у основній хмарі, що керує подами RunPod
- Мережа: Безпечні тунелі між основною інфраструктурою та екземплярами RunPod
- Зберігання моделей: Попередньо зібрані образи Docker з моделями, інтегрованими для швидкого запуску
- Моніторинг: Перевірки стану та автоперезапуск для доступності подів
Проектування інфраструктури
Конфігурація подів
- Вибір GPU: Економічно ефективні рівні GPU, вибрані для кожного робочого навантаження, що забезпечує економію коштів приблизно 85-90% порівняно з еквівалентними GPU екземплярами від великих хмарних провайдерів
- Шаблони Docker: Користувацькі контейнери з попередньо завантаженими моделями AI для висновку
- Постійне сховище: Мережеві томи для ваг моделей та файлів конфігурації
- Змінні середовища: Динамічна конфігурація для кінцевих точок потоків, ключів API та прапорців функцій
Стратегія "теплих" екземплярів
Замість холодного запуску подів за запитом, ми підтримуємо "теплі" екземпляри протягом робочих годин:
- Заплановане масштабування — Поди запускаються перед піковими годинами, зупиняються в неробочий час
- Попередньо завантажені моделі — Механізми висновку завантажуються під час запуску контейнера, готові негайно
- Перевірки стану — Оркестратор регулярно моніторить поди RunPod для перевірки готовності
- Автоматичне відновлення — Несправні поди автоматично замінюються через RunPod API
Міжхмарна комунікація
- Основна хмара: API сервери, бази даних, робітники запису
- GPU хмара (RunPod): Висновок AI, виявлення об'єктів, відстеження
- Потік даних: Відеокадри надсилаються з основної хмари до RunPod для висновку; результати виявлення повертаються через WebSocket
- Синхронізація міток часу: Синхронізація на основі PTS для обробки розбіжності часу між хмарами
Оптимізація витрат
Модель ціноутворення RunPod забезпечила значну економію порівняно з еквівалентними GPU екземплярами від великих хмарних провайдерів:
- За запитом: Зниження погодинної вартості GPU обчислень на ~85-90%
- Спотові ціни: Додаткова 50% економія для некритичної пакетної обробки у спільнотній хмарі
- Заплановане вимкнення: Автоматичне зупинення/запуск на основі робочих годин додатково знижує витрати
- Оптимальний розмір: Вибір рівня GPU, що відповідає фактичним потребам VRAM, а не надмірне забезпечення
- Розподіл між кількома подами: Розподіл потоків між меншими, дешевшими GPU замість одного великого екземпляра
Робочий процес розгортання
- Збірка — Образ Docker з усіма моделями, залежностями та кодом програми
- Відправка — Образ завантажується до реєстру контейнерів
- Розгортання — RunPod API створює под із зазначеним GPU, образом та монтуваннями томів
- Конфігурація — Змінні середовища встановлюються для конкретного розгортання
- Моніторинг — Оркестратор перевіряє стан пода та починає маршрутизацію запитів висновку
- Масштабування — Додаткові поди запускаються через API при збільшенні навантаження
Ключові особливості
- Значне зниження витрат — Економія 85-90% порівняно з еквівалентними GPU екземплярами великих хмарних провайдерів
- Попередньо зібрані контейнери — Моделі інтегровані в образи Docker для запуску менш ніж за 30 секунд
- Масштабування на основі API — Програмне створення/знищення подів залежно від попиту
- Підтримка кількох GPU — Доступні кілька рівнів GPU залежно від вимог до робочого навантаження
- Відкат до спотових екземплярів — Некритичні робочі навантаження виконуються у дисконтній спільнотній хмарі
- Міжхмарна архітектура — GPU обчислення відокремлені від основної інфраструктури
Результати
Технологічний Стек
caseStudyDetail.more Кейси
Ознайомтесь з іншими нашими технічними впровадженнями
Шаблон масштабування On-Off для робочих навантажень AI та обробки відео
Платформа для обробки відео на базі AI потребувала обробки дуже мінливих робочих навантажень — від нуля завдань у неробочий час до сотень одночасних завдань з обробки відео та AI inference під час пікових навантажень — не сплачуючи за простій GPU та обчислювальні ресурси.
Обробка рахунків-фактур за допомогою AI, OCR та інтеграції з QuickBooks
Середній бізнес, який щомісяця обробляє сотні рахунків-фактур від постачальників, потребував усунення ручного введення даних шляхом автоматичного вилучення даних рахунків-фактур за допомогою AI/OCR та їх прямої синхронізації з QuickBooks для ведення бухгалтерського обліку та відстеження платежів.
Готові Трансформувати Свій Бізнес?
Давайте обговоримо, як ми можемо застосувати подібні рішення для ваших завдань.