Päälle-pois skaalausmalli AI- ja videonkäsittelytyökuormille
AI:lla toimiva videonkäsittelyalusta tarvitsi ratkaisun erittäin vaihteleviin työkuormiin – nollasta työstä hiljaisina tunteina satoihin samanaikaisiin videonkäsittely- ja AI inference -tehtäviin ruuhka-aikoina – maksamatta samalla käyttämättömistä GPU- ja compute-resursseista.
Keskustele Projektistasi
Haaste
AI- ja videonkäsittelytyökuormat ovat luonnostaan sykkiviä ja kalliita:
- GPU-instanssit ovat kalliita riippumatta siitä, käsittelevätkö ne töitä vai ovatko ne idle-tilassa
- Video encoding, transkriptio ja AI inference vaativat erilaisia resurssiprofiileja
- Huippu- ja pohjakohdan suhde oli 50:1 – yli 200 työtä huipun aikana, lähes nolla yön yli
- Perinteinen auto-scaling oli liian hidasta (5-10 min cold start) aikaherkille käyttäjäpyynnöille
- Kiinteä infrastruktuuri, joka oli provisionoitu huipulle, tarkoitti yli 80 %:n hukkaa off-peak-tunneilla
Meidän Ratkaisumme
Toteutimme Päälle-pois skaalausmallin – hybridiarkkitehtuurin, jossa compute-resurssit provisionoidaan juuri oikeaan aikaan aktiivisille työkuormille ja deallokoidaan kokonaan, kun ne ovat idle-tilassa, sisältäen warm poolit latency-herkille tehtäville ja cold poolit batch-töille.
Arkkitehtuuri
- Job Queue: Tietokantapohjainen Job Queue, jossa priority-luokitus
- Orchestrator: Palvelu, joka hallinnoi resurssien lifecyclea ja jobien reititystä
- GPU Workers (AI): Cloud GPU podit inference-tehtäviin (object detection, transkriptio, speaker detection)
- CPU Workers (Video): Cloud VM:t video encodingiin ja renderöintiin
- Warm Pool: Pre-initialized instanssit latency-herkille jobeille (< 30s startup)
- Cold Pool: On-demand-instanssit batch-/bulk-processingiin (2-5 min startup hyväksyttävä)
Päälle-pois mallin toteutus
Resurssien Lifecycle-tilat
Resurssit käyvät läpi määritellyn lifecyclen: täysin deallokoidusta (nollakustannus), provisioningin ja warmingin (mallien lataus, health checkit) kautta ready- ja processing-tiloihin, ja sitten cooldown-ikkunan kautta takaisin deallokoituun.
Warm Pool -strategia
Latency-herkän processingin osalta (käyttäjän aloittama, odottaa tuloksia minuuteissa):
- Ylläpidä vähimmäismäärää warm pool -instansseja business hours -aikana
- Pre-loadaa AI-mallit containerin startupissa
- Reititä incoming jobit ensin warm-instansseihin
- Scale outtaa lisää warm-instansseja, kun queue depth ylittää thresholdin
- Konfiguroitava cooldown timer pitää instanssit aktiivisina sporadic jobien välillä
Cold Pool -strategia
Batch processingin osalta (yön yli bulk-jobit, ei-kiireelliset re-encodet):
- Oletuksena nolla instanssia käynnissä
- Job queue käynnistää provisioningin, kun batch-jobit lähetetään
- Bulk-optimoidut instanssit throughputin priorisoimiseksi latencyn sijaan
- Päättää välittömästi batchin valmistuttua
- Käytä spot-/preemptible-instansseja merkittäviin cost savingseihin
Job Classification & Routing
Jobit luokitellaan automaattisesti prioriteetin ja tyypin mukaan ja reititetään sitten appropriate pooliin:
- High priority käyttäjän aloittamat AI-taskit reititetään warm GPU -pooleihin
- Critical real-time taskit reititetään always-on dedikoituihin instansseihin
- Medium priority encoding-taskit reititetään warm tai cold CPU -pooleihin
- Low priority batch-taskit reititetään cold spot-/preemptible-instansseihin
Orchestrator Logic
Scale-Up Triggers
- Queue depth ylittää konfiguroitavan thresholdin
- Keskimääräinen wait time ylittää SLA:n priority levelille
- Scheduled ramp-up ennen tunnettuja peak hours -aikoja
- Manuaalinen trigger admin API:n kautta anticipated traffic spikes -tilanteita varten
Scale-Down Triggers
- Ei jobeja prosessoitu cooldown-ikkunan aikana
- Scheduled wind-down peak hours -aikojen jälkeen
- Kaikki queued jobit completed ilman uusia submissioneja
- Cost threshold saavutettu billing periodille
Health & Recovery
- Säännölliset health probet kaikille aktiivisille instansseille
- Unhealthy-instanssit replaced automaattisesti
- Failed jobit re-queued retry countin kanssa ja routed eri instanssiin
- Dead letter queue jobeille, jotka exceeding max retries
Cost Impact
Päälle-pois-malli tuotti noin 70 %:n cost reductionin verrattuna always-on fixed infrastructureen eliminoimalla idle computen off-peak-tunneilla, right-sizingilla resurssit job typeittäin ja hyödyntämällä spot-instansseja batch-työkuormissa.
Key Features
- Zero Idle Cost — Resurssit deallokoidaan kokonaan, kun ne eivät prosessoi jobeja
- Warm Pools — Pre-initialized instanssit latency-herkille workloadseille
- Cold Pools — On-demand provisioning batch-töille alhaisimmilla costeilla
- Job Classification — Automaattinen routing prioriteetin, tyypin ja latency-vaatimusten perusteella
- Cooldown Windows — Konfiguroitava idle timeout estää premature scale-downin burstien välillä
- Spot/Preemptible Support — Batch-jobit routed alennettuihin instansseihin significant savings -tarkoituksessa
- Health & Recovery — Unhealthy-instanssien auto-replacement jobien re-queuingilla
- Scheduled Scaling — Tunnettujen traffic patternsien ennakointi time-based provisioning ruleseilla
Tulokset
Teknologiapino
caseStudyDetail.more Tapaustutkimukset
Tutustu lisää teknisiin toteutuksiimme
RunPodin hyödyntäminen skaalautuvaan, kustannustehokkaaseen AI-päätelmään
Tekoälyyn perustuva videoanalytiikka-alusta tarvitsi tehokasta GPU-laskentaa reaaliaikaiseen objektintunnistukseen ja päätelmään useiden samanaikaisten videovirtojen yli – ilman 24/7 käyvien dedikoitujen GPU-palvelimien kiellettyjä kustannuksia.
AI-pohjainen laskujen käsittely OCR:n ja QuickBooks-integraation avulla
Keskisuuri yritys, joka käsitteli satoja toimittajalaskuja kuukausittain, halusi poistaa manuaalisen tiedonsyötön poimimalla laskutiedot automaattisesti AI/OCR:n avulla ja synkronoimalla ne suoraan QuickBooks-järjestelmään kirjanpitoa ja maksujen seurantaa varten.
Valmis Muuttamaan Liiketoimintaasi?
Keskustellaan siitä, miten voimme soveltaa vastaavia ratkaisuja haasteisiisi.