Mikä on on-off-skaalausmalli ja milloin se on parempi kuin perinteinen auto-scaling AI-työkuormille?

MicrocosmWorks kehitti on-off-skaalausmallin työkuormille, joilla on ennustettavia GPU-intensiivisen käsittelyn purskeita, joita seuraa pitkät käyttämättömät jaksot. Näissä tilanteissa perinteinen auto-scaling tuhlaa rahaa ylläpitämällä vähimmäiskapasiteettia käyttämättömien aikojen aikana. Sen sijaan, että pidetään aktiivisia (warm) instansseja käynnissä, malli varaa GPU-infrastruktuuria on-demand-periaatteella, kun käsittelytyö saapuu, suorittaa työkuorman ja lopettaa infrastruktuurin kokonaan, kun työ on valmis, saavuttaen lähes nollakustannukset käyttämättömien jaksojen aikana.

Miten on-off-malli minimoi kylmäkäynnistysviiveet GPU-instanssien varauksessa aikakriittiseen AI-käsittelyyn?

MicrocosmWorks lyhensi kylmäkäynnistysajat alle 60 sekuntiin esirakentamalla optimoituja konttikuvia kaikkine AI-mallipainoineen ja riippuvuuksineen sisäänrakennettuna, tallennuspaikkana rekisteri, joka sijaitsee maantieteellisesti lähellä laskenta-aluetta. Orkestrointikerros käyttää ennakoivaa resursointia aikataulutettujen työkuormien osalta, käynnistäen infrastruktuurin 2-3 minuuttia ennen odotettua kysyntää, ja ennustamattomien työkuormien osalta järjestelmä asettaa työt jonoon ja lähettää käsittely aloitettu -ilmoituksia, jotta käyttäjät tietävät pyyntönsä olevan käsittelyssä.

Kuinka suuria kustannussäästöjä on-off-malli tuottaa verrattuna GPU-instanssien jatkuvaan pitämiseen käynnissä?

MicrocosmWorks dokumentoi 70-90 %:n kustannussäästöjä asiakkaille, joiden AI-videonkäsittelyn työkuormat pyörivät 2-6 tuntia päivässä verrattuna 24/7 GPU-instanssien ylläpitoon. Säästöt syntyvät maksamalla vain todellisesta käsittelyajasta sekä muutamasta minuutista käynnistys- ja alasajokustannuksia, ja malli on erityisen tehokas työkuormissa, kuten yöllisessä erävideokäsittelyssä, kysynnän mukaisessa transkoodauksessa tai tapahtumapohjaisessa AI-analyysissä, joissa käyttö on luonnostaan ajoittaista.

Voiko on-off pattern käsitellä kuormituksia, jotka vaativat satojen videoiden rinnakkaista käsittelyä?

Kyllä, MicrocosmWorks toteutti fan-out-arkkitehtuurin on-off patternin sisällä, joka provisionoi useita GPU-työntekijöitä rinnakkain suurten eräajotehtävien saapuessa, jakaa videotiedostot työntekijöiden kesken tehtäväjonon avulla ja purkaa kaikki työntekijät, kun eräajo on valmis. Järjestelmä seuraa videokohtaista edistymistä ja käsittelee yksittäisiä videovirheitä uudelleenyrityslogiikalla estämättä muuta erää, ja yhdistää tulokset yhteen tulostussijaintiin jatkokäyttöä varten.

Mitä maksaa on-off skaalausmallin toteuttaminen AI- ja videonkäsittelytyökuormille?

MicrocosmWorks toteuttaa on-off skaalausarkkitehtuureja kehitystyön tuntihinnalla $25-$45, ja tuotantovalmis toteutus, joka sisältää työtehtävien orkestroinnin, infrastruktuurin provisioinnin, valvonnan ja virheidenkäsittelyn, toimitetaan tyypillisesti 3-5 viikossa. Kehitysinvestointi maksaa itsensä takaisin tyypillisesti 1-2 kuukaudessa pelkästään GPU-kustannussäästöjen ansiosta, erityisesti organisaatioille, jotka käyttävät tällä hetkellä jatkuvasti päällä olevia GPU-instansseja ja jotka ovat käyttämättöminä yli 50% ajasta päivässä.

On-Off Scaling Pattern for AI & Video Processing Workload...

On-Off-skaalausmalli AI- ja videonkäsittelytyökuormille

AI-pohjainen videonkäsittelyalusta tarvitsi käsitellä erittäin vaihtelevia työkuormia — nollasta työstä hiljaisina aikoina satoihin samanaikaisiin videonkäsittely- ja AI inference -tehtäviin ruuhka-aikoina — maksamatta käyttämättömistä GPU- ja laskentaresursseista.

Keskustele Projektistasi

Otimme käyttöön On-Off-skaalausmallin — hybridirakenteen, jossa laskentaresurssit varataan just-in-time aktiivisia työkuormia varten ja deallokoidaan kokonaan käyttämättöminä, sisältäen warm pools -ratkaisut latenssiherkille tehtäville ja cold pools -ratkaisut eräajoille.

Arkkitehtuuri

Job Queue: Tietokantapohjainen työjono prioriteettiluokittelulla
Orchestrator: Palvelu, joka hallitsee resurssien elinkaarta ja töiden reititystä
GPU Workers (AI): Pilvi-GPU-podit inference-toimintoja varten (object detection, transcription, speaker detection)
CPU Workers (Video): Pilvi-VM:t videon koodaukseen ja renderointiin
Warm Pool: Esialustetut instanssit latenssiherkille töille (< 30s käynnistys)
Cold Pool: On-demand-instanssit erä- ja massakäsittelyyn (2-5 min käynnistys hyväksyttävä)

On-Off-mallin toteutus

Resurssien elinkaaren tilat

Resurssit käyvät läpi määritellyn elinkaaren: täysin deallokoidusta (nollakustannus), provisionoinnin ja lämmityksen (mallien lataus, health checkit) kautta valmiisiin ja käsittelytiloihin, ja sitten cooldown-ikkunan kautta takaisin deallokoiduksi.

Warm Pool -strategia

Latenssiherkkää käsittelyä varten (käyttäjän aloittama, odottaa tuloksia minuuteissa):

Ylläpidä vähimmäismäärää warm pool -instansseja työaikana
Esilataa AI-mallit containerin käynnistyksen yhteydessä
Reititä saapuvat työt ensin warm-instansseille
Skaalaa lisää warm-instansseja, kun jonon syvyys ylittää kynnyksen
Konfiguroitavissa oleva cooldown-ajastin pitää instanssit käynnissä satunnaisten töiden välillä

Cold Pool -strategia

Eräkäsittelyä varten (yön yli ajettavat massatyöt, ei-kiireelliset uudelleenkoodaukset):

Nolla instanssia käynnissä oletuksena
Työjono laukaisee provisionoinnin, kun eräajoja lähetetään
Massalle optimoidut instanssit läpimeno edellä latenssia
Päätä välittömästi eräajon valmistuttua
Käytä spot/preemptible-instansseja merkittävien kustannussäästöjen saavuttamiseksi

Työtehtävien luokittelu ja reititys

Työt luokitellaan automaattisesti prioriteetin ja tyypin mukaan, ja reititetään sitten sopivaan pooleen:

Korkean prioriteetin käyttäjän aloittamat AI-tehtävät reititetään warm GPU -pooleihin
Kriittiset reaaliaikaiset tehtävät reititetään aina päällä oleviin dedikoituihin instansseihin
Keskiprioriteetin koodaustehtävät reititetään warm- tai cold CPU -pooleihin
Matalan prioriteetin erätyöt reititetään cold spot/preemptible -instansseihin

Orchestratorin logiikka

Skaalaus ylös -laukaisijat

Jonon syvyys ylittää konfiguroitavissa olevan kynnyksen
Keskimääräinen odotusaika ylittää SLA:n prioriteettitasolle
Ajastettu ylösajo ennen tunnettuja ruuhka-aikoja
Manuaalinen laukaisija admin API:n kautta ennakoituihin liikennepiikkeihin

Skaalaus alas -laukaisijat

Ei töitä käsitelty cooldown-ikkunan aikana
Ajastettu alasajo ruuhka-aikojen jälkeen
Kaikki jonossa olevat työt valmiina ilman uusia lähetyksiä
Kustannuskynnys saavutettu laskutuskaudella

Terveys ja palautuminen

Säännölliset health-tarkistukset kaikille aktiivisille instansseille
Epäterveet instanssit korvataan automaattisesti
Epäonnistuneet työt palautetaan jonoon uudelleenyrityslaskurin kanssa ja reititetään toiseen instanssiin
Dead letter queue töille, jotka ylittävät maksimi uudelleenyritysmäärän

Kustannusvaikutus

On-Off-malli tuotti noin 70 %:n kustannussäästöt verrattuna aina päällä olevaan kiinteään infrastruktuuriin poistamalla käyttämättömät laskentaresurssit hiljaisina aikoina, mitoittamalla resurssit oikein työtyypin mukaan ja hyödyntämällä spot-instansseja erätyökuormissa.

Tärkeimmät ominaisuudet

Nolla käyttämättömän ajan kustannus — Resurssit deallokoidaan kokonaan, kun ne eivät käsittele töitä
Warm Pools — Esialustetut instanssit latenssiherkille työkuormille
Cold Pools — On-demand-provisionointi eräajoille alhaisimmin kustannuksin
Työtehtävien luokittelu — Automaattinen reititys prioriteetin, tyypin ja latenssivaatimusten perusteella
Cooldown Windows — Konfiguroitavissa oleva tyhjäkäyntiaika estää ennenaikaisen skaalauksen alas sykkivien kuormien välillä
Spot/Preemptible Support — Erätyöt reititetään alennettuihin instansseihin merkittäviä säästöjä varten
Health & Recovery — Epäterveiden instanssien automaattinen korvaaminen töiden uudelleenjonoutuksen kanssa
Ajastettu skaalaus — Ennakoi tunnetut liikennemallit aikaperusteisilla provisionointisäännöillä

On-Off-skaalausmalli AI- ja videonkäsittelytyökuormille

Haaste

Meidän Ratkaisumme

Arkkitehtuuri

On-Off-mallin toteutus

Resurssien elinkaaren tilat

Warm Pool -strategia

Cold Pool -strategia

Työtehtävien luokittelu ja reititys

Orchestratorin logiikka

Skaalaus ylös -laukaisijat

Skaalaus alas -laukaisijat

Terveys ja palautuminen

Kustannusvaikutus

Tärkeimmät ominaisuudet

Tulokset

Teknologiapino

caseStudyDetail.more Tapaustutkimukset

RunPodin hyödyntäminen skaalautuvaan, kustannustehokkaaseen AI-päätelmään

AI-pohjainen laskujen käsittely OCR:n ja QuickBooks-integraation avulla

Valmis Muuttamaan Liiketoimintaasi?

Asiakaspuolen mainosten upotus (CSAI) SCTE-35-merkkien jäsennyksellä ja monialustaisen soittimen integroinnilla

Usein kysytyt kysymykset