RunPodin hyödyntäminen skaalautuvaan, kustannustehokkaaseen AI-päätelmään
Tekoälyyn perustuva videoanalytiikka-alusta tarvitsi tehokasta GPU-laskentaa reaaliaikaiseen objektintunnistukseen ja päätelmään useiden samanaikaisten videovirtojen yli – ilman 24/7 käyvien dedikoitujen GPU-palvelimien kiellettyjä kustannuksia.
Keskustele Projektistasi
Haaste
GPU-infrastruktuuri AI-työkuormille esitti kustannus vs. suorituskyky -dilemman:
- Suurten pilvipalveluntarjoajien dedikoidut GPU-palvelimet maksoivat tuhansia kuukaudessa per instanssi
- Työkuormat olivat vaihtelevia – ruuhka-aikoina tarvittiin 4–8 kertaa enemmän GPU-kapasiteettia kuin hiljaisina aikoina
- Serverless GPU-palveluntarjoajien kylmäkäynnistysajat olivat liian hitaita (30–60 sekuntia) reaaliaikaiseen päätelmään
- Mallien lataaminen vaati huomattavan paljon VRAM-muistia ja käynnistysaikaa
- Yhden pilvipalveluntarjoajan aiheuttama sitoutuminen rajoitti neuvotteluvaraa ja vikasietomahdollisuuksia
Meidän Ratkaisumme
Otimme käyttöön RunPodin GPU-laskentakerrokseksi, käyttäen heidän on-demand- ja spot-GPU-instanssejaan AI-päätelmän suorittamiseen murto-osalla perinteisten pilvi-GPU-kustannuksista, lämpimän instanssin arkkitehtuurilla minimoidaksemme kylmäkäynnistykset.
Arkkitehtuuri
- Laskenta: RunPod GPU-podit päätelmätyökuormille, GPU-tason valinta työkuorman mukaan
- Orkestrointi: FastAPI-orkestraattori ensisijaisessa pilvessä hallinnoi RunPod-podeja
- Verkostoituminen: Suojatut tunnelit ensisijaisen infrastruktuurin ja RunPod-instanssien välillä
- Mallien tallennus: Valmiit Docker-kuvat malleilla nopeaa käynnistystä varten
- Valvonta: Kuntotarkistukset ja automaattinen uudelleenkäynnistys podien saatavuuden varmistamiseksi
Infrastruktuurin suunnittelu
Pod-kokoonpano
- GPU:n valinta: Kustannustehokkaat GPU-tasot valitaan työkuorman mukaan, saavuttaen ~85–90 % kustannussäästöt verrattuna vastaaviin suurten pilvipalveluntarjoajien GPU-instansseihin
- Docker-mallit: Mukautetut kontit esiladatuilla AI-malleilla päätelmää varten
- Pysyvä tallennustila: Verkkolevyt mallipainoille ja konfiguraatiotiedostoille
- Ympäristömuuttujat: Dynaaminen konfiguraatio virran päätepisteille, API-avaimille ja ominaisuuslipuille
Lämpimän instanssin strategia
Sen sijaan, että käynnistämme podeja kylmästi jokaisen pyynnön perusteella, ylläpidämme lämpimiä instansseja toiminta-aikoina:
- Aikataulutettu skaalaus — Podit käynnistetään ennen ruuhka-aikoja, pysäytetään hiljaisina aikoina
- Esiladatut mallit — Päätelmämoottorit ladataan konttien käynnistyksen yhteydessä, valmiina välittömästi
- Kuntotarkistukset — Orkestraattori valvoo RunPod-podeja säännöllisesti varmistaakseen niiden valmiuden
- Automaattinen palautuminen — Epäterveet podit korvataan automaattisesti RunPod API:n kautta
Pilvien välinen kommunikaatio
- Ensisijainen pilvi: API-palvelimet, tietokannat, tallennustyötekijät
- GPU-pilvi (RunPod): AI-päätelmä, objektintunnistus, seuranta
- Tietovirta: Videokehykset lähetetään ensisijaisesta pilvestä RunPodiin päätelmää varten; tunnistustulokset palautetaan WebSocketin kautta
- Aikaleiman synkronointi: PTS-pohjainen synkronointi kellon poikkeaman käsittelemiseksi pilvien välillä
Kustannusoptimointi
RunPodin hinnoittelumalli tuotti merkittäviä säästöjä verrattuna vastaaviin GPU-instansseihin suurilta pilvipalveluntarjoajilta:
- On-Demand: ~85–90 % alennus tunneittaisista GPU-laskentakustannuksista
- Spot Pricing: Lisäksi 50 % säästöt ei-kriittiseen eräkäsittelyyn yhteisöpilvessä
- Aikataulutettu sammutus: Automaattinen pysäytys/käynnistys toiminta-aikojen perusteella vähentää kustannuksia entisestään
- Oikea mitoitus: Valitaan GPU-taso, joka vastaa todellisia VRAM-tarpeita, eikä ylisuurita kapasiteettia
- Usean podin jakelu: Jaetaan virrat pienemmille, halvemmille GPU:ille yhden suuren instanssin sijaan
Käyttöönoton työnkulku
- Build — Docker-kuva kaikilla malleilla, riippuvuuksilla ja sovelluskoodilla
- Push — Kuva työnnetään konttirekisteriin
- Deploy — RunPod API luo podin määritetyllä GPU:lla, kuvalla ja volyymikiinnityksillä
- Configure — Ympäristömuuttujat asetetaan tiettyä käyttöönottoa varten
- Monitor — Orkestraattori tarkistaa podin kunnon ja alkaa reitittää päätelmäpyyntöjä
- Scale — Lisäpodit käynnistetään API:n kautta kuormituksen kasvaessa
Keskeiset ominaisuudet
- Merkittävä kustannussäästö — 85–90 % säästöt verrattuna vastaaviin suurten pilvipalveluntarjoajien GPU-instansseihin
- Valmiit kontit — Mallit sisällytetty Docker-kuviin alle 30 sekunnin käynnistystä varten
- API-vetoinen skaalaus — Ohjelmallinen podien luominen/tuhoaminen kysynnän perusteella
- Usean GPU:n tuki — Useita GPU-tasoja saatavilla työkuorman vaatimusten mukaan
- Spot-instanssin varajärjestelmä — Ei-kriittiset työkuormat ajetaan alennetun hintaisessa yhteisöpilvessä
- Pilvirajat ylittävä arkkitehtuuri — GPU-laskenta irrotettu ensisijaisesta infrastruktuurista
Tulokset
Teknologiapino
caseStudyDetail.more Tapaustutkimukset
Tutustu lisää teknisiin toteutuksiimme
On-Off-skaalausmalli AI- ja videonkäsittelytyökuormille
AI-pohjainen videonkäsittelyalusta tarvitsi käsitellä erittäin vaihtelevia työkuormia — nollasta työstä hiljaisina aikoina satoihin samanaikaisiin videonkäsittely- ja AI inference -tehtäviin ruuhka-aikoina — maksamatta käyttämättömistä GPU- ja laskentaresursseista.
AI-pohjainen laskujen käsittely OCR:n ja QuickBooks-integraation avulla
Keskisuuri yritys, joka käsitteli satoja toimittajalaskuja kuukausittain, halusi poistaa manuaalisen tiedonsyötön poimimalla laskutiedot automaattisesti AI/OCR:n avulla ja synkronoimalla ne suoraan QuickBooks-järjestelmään kirjanpitoa ja maksujen seurantaa varten.
Valmis Muuttamaan Liiketoimintaasi?
Keskustellaan siitä, miten voimme soveltaa vastaavia ratkaisuja haasteisiisi.