Jangan bayar untuk GPU yang terbiar. Sediakan komputasi tepat pada masanya, proses beban kerja, dan lupuskannya — mengubah perbelanjaan modal menjadi kos operasi setiap tugas.

Beban kerja anda adalah bercorak lonjakan — tugas pengekodan video yang memuncak apabila kandungan dimuat naik, sesi latihan ML yang memerlukan 8 GPU selama 4 jam kemudian tiada apa-apa, tugas inferens kelompok yang dicetuskan oleh peristiwa perniagaan, atau saluran paip rendering yang berjalan semalaman. Anda sama ada terlebih peruntukan (membayar untuk sumber terbiar 80% daripada masa) atau terkurang peruntukan (tugas beratur selama berjam-jam semasa waktu puncak). Anda memerlukan seni bina yang memperuntukkan komputasi yang anda perlukan dengan tepat, apabila anda memerlukannya, dan melepaskannya apabila tugas selesai — tanpa penalti 'cold-start' yang menjadikan "skala kepada sifar" tidak praktikal untuk beban kerja GPU.
Explore more design patterns and system architectures
Arkitek kami dapat membantu merancang dan membina sistem menggunakan pola ini untuk keperluan khusus anda.
Hubungi KamiSeni bina penskalaan On-Off menguruskan sumber komputasi melalui pengumpulan hangat/sejuk (warm/cold pooling), penyediaan didorong giliran tugas, dan pembongkaran automatik. Satu kumpulan hangat (warm pool) mengekalkan sebilangan kecil instans pra-permulaan yang sedia untuk kegunaan segera. Satu kumpulan sejuk (cold pool) menyediakan kapasiti tambahan daripada instans spot/preemptible apabila permintaan melebihi kumpulan hangat. Satu orkestrator tugas menghalakan kerja kepada instans yang tersedia, memantau kemajuan, mengendalikan cubaan semula atas pengusiran spot, dan mencetuskan skala-turun apabila giliran kosong. Corak ini amat kritikal untuk beban kerja GPU di mana 'cold start' (penarikan kontena + pemuatan model) boleh mengambil masa 3-10 minit.
Sistem ini berpusat pada giliran tugas (job queue) (SQS, Redis, atau tersuai) yang menampan permintaan kerja yang masuk. Satu pengawal penskalaan memantau kedalaman giliran dan memperuntukkan instans daripada kumpulan hangat terlebih dahulu, kemudian daripada kumpulan sejuk (instans spot). Setiap instans pekerja menarik tugas daripada giliran, melaksanakan beban kerja (pengekodan, latihan, inferens), melaporkan penyelesaian, dan kembali ke kumpulan atau ditamatkan. Satu pengurus titik semak (checkpoint manager) mengendalikan pengusiran spot dengan menyimpan keadaan pertengahan ke S3, membolehkan tugas disambung semula pada instans yang berbeza tanpa bermula dari awal.
| Lapisan | Teknologi |
|---|---|
| Komputasi | AWS EC2 Spot (G5/P4), GCP Preemptible (A2/L4), RunPod Serverless, Modal |
| Orkestrasi | Kubernetes (Karpenter for autoscaling), AWS Batch, custom job orchestrator |
| Giliran Tugas | AWS SQS, BullMQ (Redis), Temporal, Celery |
| Storan | S3 (titik semak, artifak model), NVMe (kaching model), EFS (ruang kerja kongsi) |
| Pemantauan | CloudWatch/Prometheus (kedalaman giliran, penggunaan instans, kependaman tugas), papan pemuka kos tersuai |
| Gunakan Apabila | Elakkan Apabila |
|---|---|
| Beban kerja adalah bercorak lonjakan — permintaan puncak adalah 5x+ purata permintaan | Trafik adalah stabil dan boleh diramal — instans terpelihara bersaiz tepat lebih murah |
| Tugas GPU/komputasi tinggi yang mahal apabila terbiar | Beban kerja adalah pemprosesan CPU ringan yang sesuai untuk tanpa pelayan (Lambda) |
| Tugas boleh menahan 'cold start' 1-5 minit untuk penyediaan kumpulan sejuk | Kependaman permulaan tugas bawah satu saat diperlukan — anda memerlukan infrastruktur sentiasa aktif |
| Pengoptimuman kos adalah kebimbangan utama dan harga spot menawarkan penjimatan 60-90% | Gangguan spot akan menyebabkan kehilangan data yang tidak dapat dikurangkan oleh titik semak |
MW mereka penskalaan On-Off dengan lensa "kos per tugas" — kami memodelkan jumlah kos memproses satu unit kerja (satu video, satu sesi latihan, satu inferens kelompok) merentasi strategi penskalaan yang berbeza dan memilih yang meminimumkan kos pada SLA kependaman yang diperlukan. Pelaksanaan kami termasuk papan pemuka kos masa nyata yang menunjukkan kos per tugas, penggunaan infrastruktur, dan penjimatan spot. Kami telah membina infrastruktur GPU On-Off yang mengurangkan kos pemprosesan video sebanyak 70% berbanding instans terpelihara, dan kluster latihan ML yang menyediakan 64 GPU untuk sesi latihan 4 jam dan melepaskannya secara automatik.
Keselamatan bukanlah ciri yang anda tambah selepas pelancaran. Ia adalah sifat seni bina — sama ada sistem itu direka bentuk untuknya, atau tidak.
Pelanggan MicrocosmWorks dengan beban kerja berat batch atau berkala biasanya melihat pengurangan kos awan sebanyak 60-80% selepas melaksanakan on-off scaling, kerana sumber pengiraan hanya berjalan semasa tetingkap pemprosesan aktif dan bukannya 24/7. Kami mereka dasar penskalaan berdasarkan telemetri penggunaan sebenar—sebagai contoh, saluran pemprosesan data yang berjalan selama 4 jam sehari hanya membayar untuk 4 jam tersebut dan bukannya sepanjang 24 jam. Arkitek kami menganalisis corak beban kerja anda semasa fasa penemuan untuk mengunjurkan penjimatan tepat sebelum sebarang pelaksanaan bermula.
Masa `cold-start` berbeza dari 2-3 saat untuk aplikasi terkontena pada `pre-warmed node pools` hingga 5-10 minit untuk beban kerja yang memerlukan `GPU instances` khusus atau pemuatan model besar, dan `MicrocosmWorks` menggunakan beberapa teknik untuk meminimumkan kelewatan ini. Kami melaksanakan `predictive scaling` yang mengaktifkan sumber sebelum permintaan yang dijangka menggunakan corak trafik sejarah dan acara terjadual, dan kami menggunakan `pre-pulling image` kontena serta tempahan `warm pool` untuk beban kerja yang sensitif terhadap latensi. Untuk aplikasi yang tidak dapat menoleransi sebarang `cold start`, kami mengekalkan garis dasar `warm` yang minimum yang meningkatkan skala secara agresif apabila permintaan tiba.
MicrocosmWorks melaksanakan reactive auto-scaling dengan polisi scale-up yang agresif yang dicetuskan oleh queue depth, CPU utilization, atau custom application metrics, digabungkan dengan polisi scale-down yang lebih beransur-ansur yang merangkumi cooldown periods untuk mengelakkan thrashing. Kami mengkonfigurasi over-provisioning buffers semasa scale-up events supaya sistem menjangkakan pertumbuhan berterusan daripada mengejar permintaan satu instans pada satu masa. Untuk lonjakan yang benar-benar tidak dapat diramalkan seperti flash sales atau viral events, kami pre-provision kapasiti menggunakan event-driven triggers dari kalendar pemasaran atau operasi anda.
MicrocosmWorks mengaplikasikan penskalakan on-off pada pangkalan data menggunakan penawaran pangkalan data tanpa pelayan (serverless) seperti Aurora Serverless, Neon, atau PlanetScale yang menskalakan komputasi kepada sifar semasa tempoh terbiar sambil mengekalkan storan yang berterusan (persistent) dan tersedia serta-merta. Untuk beban kerja berkeadaan (stateful workloads) yang tidak boleh menggunakan pangkalan data tanpa pelayan (serverless databases), kami melaksanakan penskalakan replika-baca (read-replica scaling) yang menambah dan mengalih keluar replika berdasarkan beban pertanyaan sambil mengekalkan instans utama yang minimum sentiasa beroperasi. Pendekatan hibrid ini memberikan pelanggan faedah kos penskalakan untuk lapisan data mereka tanpa kerumitan mengurus keadaan pangkalan data semasa kitaran penutupan dan permulaan semula.
MicrocosmWorks menggunakan kebolehlihatan penskalaan yang komprehensif yang menjejaki jumlah instance, latensi acara penskalaan, percobaan penskalaan yang gagal, dan jurang antara kapasiti yang diingini dan sebenar secara masa nyata menggunakan dashboard Grafana atau Datadog. Kami mengkonfigurasi amaran berbilang saluran untuk kegagalan penskalaan, utilisasi tinggi yang berterusan yang menunjukkan had penskalaan terlalu rendah, dan anomali kos yang menunjukkan penskalaan tidak terkawal. Runbook kami merangkumi pemulihan automatik untuk mod kegagalan biasa seperti mencapai had instance penyedia cloud atau menghadapi ralat kapasiti tidak mencukupi di zon ketersediaan tertentu.