Betal ikke for inaktive GPUs. Provisioner beregningskraft just-in-time, behandl arbejdsbyrden, og nedlæg den — hvilket forvandler kapitaludgifter til en driftsomkostning pr. job.

Din arbejdsbyrde er "bursty" — video-encoding-jobs, der topper, når indhold uploades, ML training-kørsler, der kræver 8 GPUs i 4 timer og derefter intet, batch inference-jobs udløst af forretningshændelser, eller rendering-pipelines, der kører om natten. Du er enten over-provisioneret (betaler for inaktive ressourcer 80% af tiden) eller under-provisioneret (jobs står i kø i timevis under spidsbelastninger). Du har brug for en arkitektur, der provisionerer præcis den beregningskraft, du har brug for, når du har brug for den, og frigiver den, når jobbet er færdigt — uden den cold-start-straf, der gør "scale to zero" upraktisk for GPU-arbejdsbyrder.
Explore more design patterns and system architectures
Vores arkitekter kan hjælpe dig med at designe og bygge systemer ved hjælp af dette mønster til dine specifikke krav.
Kom i KontaktOn-off skaleringsarkitektur administrerer beregningsressourcer gennem warm/cold pooling, jobkø-drevet provisionering og automatiseret nedlæggelse. En warm pool opretholder et lille antal forhåndsinitialiserede instanser klar til øjeblikkelig brug. En cold pool provisionerer yderligere kapacitet fra spot/preemptible instances, når efterspørgslen overstiger warm poolen. En job orchestrator dirigerer arbejde til tilgængelige instanser, overvåger fremskridt, håndterer genforsøg ved spot-afbrydelser og udløser skalering ned, når køen er tom. Mønsteret er særligt kritisk for GPU-arbejdsbyrder, hvor cold start (container pull + model loading) kan tage 3-10 minutter.
Systemet er centreret omkring en jobkø (SQS, Redis eller brugerdefineret), der bufferer indgående arbejdsanmodninger. En scaling controller overvåger kødybden og provisionerer instanser fra warm poolen først, derefter fra cold poolen (spot instances). Hver worker instance trækker jobs fra køen, udfører arbejdsbyrden (encoding, training, inference), rapporterer færdiggørelse og vender tilbage til poolen eller terminerer. En checkpoint manager håndterer spot-afbrydelser ved at gemme mellemliggende tilstand i S3, hvilket gør det muligt for jobs at genoptage på en anden instans uden at starte forfra.
| Lag | Teknologier |
|---|---|
| Compute | AWS EC2 Spot (G5/P4), GCP Preemptible (A2/L4), RunPod Serverless, Modal |
| Orchestration | Kubernetes (Karpenter for autoscaling), AWS Batch, custom job orchestrator |
| Jobkø | AWS SQS, BullMQ (Redis), Temporal, Celery |
| Storage | S3 (checkpoints, model artifacts), NVMe (model cache), EFS (shared workspace) |
| Overvågning | CloudWatch/Prometheus (kødybde, instansudnyttelse, job-latency), brugerdefinerede omkostningsdashboards |
| Brug Når | Undgå Når |
|---|---|
| Arbejdsbyrden er "bursty" — spidsbelastning er 5x+ gennemsnitlig efterspørgsel | Trafikken er stabil og forudsigelig — korrekt dimensionerede reserverede instanser er billigere |
| GPU-/høj-beregningsjobs, der er dyre i inaktiv tilstand | Arbejdsbyrden er let CPU-behandling, der passer til serverless (Lambda) |
| Jobs kan tolerere 1-5 minutters cold start for cold pool-provisionering | Sub-sekunds jobstart-latency er påkrævet — du har brug for always-on infrastruktur |
| Omkostningsoptimering er en primær bekymring, og spot-prissætning tilbyder 60-90% besparelser | Spot-afbrydelse ville forårsage datatab, som checkpointing ikke kan afhjælpe |
MW designer on-off skalering med et "omkostning pr. job"-perspektiv — vi modellerer de samlede omkostninger ved at behandle én arbejdsenhed (én video, én training-kørsel, én batch inference) på tværs af forskellige skaleringsstrategier og vælger den, der minimerer omkostningerne ved den krævede latency SLA. Vores implementeringer inkluderer realtidsomkostningsdashboards, der viser omkostninger pr. job, infrastrukturudnyttelse og spot-besparelser. Vi har bygget on-off GPU-infrastruktur, der reducerede video-behandlingsomkostningerne med 70% sammenlignet med reserverede instanser, og ML training-klynger, der provisionerer 64 GPUs til en 4-timers training-kørsel og frigiver dem automatisk.
Sikkerhed er ikke en funktion, du tilføjer efter lancering. Det er en arkitektonisk egenskab – enten er systemet designet til det, eller også er det ikke.
MicrocosmWorks-kunder med tunge batch- eller periodiske arbejdsbelastninger oplever typisk 60-80% reduktioner i cloud-omkostninger efter implementering af on-off skalering, fordi computerressourcer kun kører under aktive behandlingsvinduer i stedet for 24/7. Vi designer skaleringspolitikker baseret på faktisk brugstelemetri—for eksempel, en databehandlingspipeline, der kører 4 timer dagligt, betaler kun for de 4 timer i stedet for de fulde 24. Vores arkitekter analyserer jeres arbejdsbelastningsmønstre under en opdagelsesfase for at estimere præcise besparelser, før enhver implementering påbegyndes.
Koldstarttider varierer fra 2-3 sekunder for containeriserede applikationer på forvarmede node-puljer til 5-10 minutter for workloads, der kræver specialiserede GPU-instanser eller indlæsning af store modeller, og MicrocosmWorks anvender flere teknikker til at minimere denne forsinkelse. Vi implementerer forudsigelig skalering, der igangsætter ressourcer før forventet efterspørgsel ved hjælp af historiske trafikmønstre og planlagte begivenheder, og vi bruger container image pre-pulling og warm pool reservationer for latency-følsomme workloads. For applikationer, der ikke kan tolerere nogen koldstart, vedligeholder vi en minimal varm baseline, der skalerer aggressivt op, når efterspørgslen opstår.
MicrocosmWorks implementerer reaktiv auto-skalering med aggressive opskaleringspolitikker, der udløses af kødybde, CPU-udnyttelse eller brugerdefinerede applikationsmetrikker, kombineret med mere gradvise nedskaleringspolitikker, der inkluderer nedkølingsperioder for at undgå thrashing. Vi konfigurerer overprovisioneringsbuffere under opskaleringsbegivenheder, så systemet forudser fortsat vækst i stedet for at jagte efterspørgslen én instans ad gangen. For virkeligt uforudsigelige spidser som lynsalg eller virale begivenheder, forudprovisionerer vi kapacitet ved hjælp af begivenhedsdrevne triggere fra jeres marketing- eller driftskalender.
MicrocosmWorks anvender on-off scaling på databaser ved at bruge serverless database-tilbud som Aurora Serverless, Neon eller PlanetScale, der skalerer compute til nul i inaktive perioder, samtidig med at storage holdes persistent og øjeblikkeligt tilgængeligt. For stateful workloads, der ikke kan bruge serverless databases, implementerer vi read-replica scaling, der tilføjer og fjerner replikaer baseret på forespørgselsbelastning, samtidig med at en minimal primary instance altid kører. Denne hybridtilgang giver kunderne omkostningsfordelene ved scaling for deres data tier uden kompleksiteten ved at administrere databasens state under nedluknings- og genstarts-cyklusser.
MicrocosmWorks implementerer omfattende scaling observability, der sporer instance counts, scaling event latency, mislykkede skaleringsforsøg og kløften mellem ønsket og faktisk kapacitet i realtid ved hjælp af Grafana- eller Datadog-dashboards. Vi konfigurerer flerkanals-alarmer for skaleringsfejl, vedvarende høj udnyttelse, der antyder, at scaling ceiling er for lavt, og cost anomalies, der indikerer runaway scaling. Vores runbooks inkluderer automatiseret udbedring for almindelige failure modes, såsom at ramme cloud provider instance limits eller at støde på insufficient capacity errors i specifikke availability zones.