Büyük ölçekli eğitim ve çıkarım için akıllı orkestrasyon ile GPU kullanımını en üst düzeye çıkarın ve deney başına maliyeti en aza indirin.

Büyük modelleri eğiten AI ekipleri, acımasız bir altyapı sorunuyla karşı karşıyadır: GPU hesaplama pahalı, kıt ve yetersiz kullanılmaktadır. Veri bilimciler, paylaşılan kümelerde GPU erişimi için saatlerce beklerken, tahsis edilen instance'lar veri ön işleme veya hiperparametre analizi sırasında boşta durmaktadır. Spot instance kesintileri, uygun checkpointing eksikliği olan çok günlük eğitim çalışmalarını bozarak binlerce doları boşa harcayabilir. Deney başına maliyete ilişkin görünürlük olmadığından, farklı araştırma yönlerinin ROI'sini karşılaştırmak imkansızdır. Model artifact'ları, sürümleme veya soy ağacı takibi olmaksızın kişisel makineler ve S3 bucket'ları arasında dağınıktır. Kuruluşlar tek GPU deneylerinden dağıtılmış çok düğümlü eğitime geçerken, küçük ekipler için işe yarayan ad hoc araçlar çökmekte ve araştırmacılar modellerini geliştirmekten çok altyapıyı yönetmeye daha fazla zaman ayırmaktadır.
Bir sonraki projeniz için daha fazla uygulama planı keşfedin
Bu çözümü uzman ekibimizle işletmeniz için nasıl oluşturabileceğimizi tartışmak için bize ulaşın.
İletişime GeçinMicrocosmWorks, hesaplamayı akıllı kuyruklama, önceliklendirme politikaları ve maliyet takibi ile paylaşılan, planlanabilir bir kaynak olarak ele alan uçtan uca bir GPU orkestrasyon platformu oluşturabilir. Platform, hem eğitim hem de çıkarım iş yüklerini farklı planlama profilleriyle destekler—eğitim işleri, otomatik checkpointing ile spot ve on-demand instance'lar arasında toplu olarak planlanırken, çıkarım endpoint'leri istek modellerine göre otomatik olarak ölçeklenir. Birleşik bir model registry'si, her deneyin kodunu, verisini, hiperparametrelerini ve ortaya çıkan artifact'larını tam soy ağacı ile takip eder. Araştırmacılar, kaynak gereksinimlerini tanımladıkları bir self-servis portal aracılığıyla etkileşim kurar ve platform, yerleştirme, ölçekleme, hata toleransı ve maliyet ilişkilendirmesini otomatik olarak yönetir.
Platform, Kubernetes üzerinde GPU-aware scheduling ile çalışır ve kuyruk derinliğine göre otomatik olarak ölçeklenen on-demand ve spot instance node pool'ları karışımını kullanır. Özel bir scheduler, işleri ekip bütçesine, teslim tarihine ve kaynak verimliliğine göre önceliklendirir. Dağıtılmış bir depolama katmanı, eğitim işlerine yüksek verimli veri erişimi sağlarken, bir model registry ve experiment tracker, tekrarlanabilirlik ve yönetişim için meta veri omurgasını oluşturur.
| Katman | Teknolojiler |
|---|---|
| Backend | Python, Go, FastAPI, gRPC, Ray |
| AI / ML | PyTorch, DeepSpeed, Hugging Face Transformers, NVIDIA NCCL, TensorRT, vLLM |
| Frontend | React, Grafana, MLflow UI, custom Jupyter Hub portal |
| Veritabanı | PostgreSQL (metadata), MinIO (artifact storage), Redis (job queue), TimescaleDB (metrics) |
| Altyapı | Kubernetes (EKS with GPU nodes), Karpenter, NVIDIA GPU Operator, Terraform, ArgoCD, Prometheus, DCGM Exporter |
Platform, 12-16 hafta süren dört aşamada inşa edilir. 1-3. Haftalar, gereksinimlerin belirlenmesi, GPU iş yükü profillemesi ve Karpenter ile NVIDIA GPU Operator'ü içeren Kubernetes tabanlı planlama ve otomatik ölçekleme altyapısının mimari tasarımına odaklanır. 4-8. Haftalar, bin-packing ve gang scheduling içeren GPU-aware scheduler'ı, spot instance teklif stratejileri içeren elastic node pool manager'ı ve DVC entegrasyonu içeren MLflow tabanlı model registry'yi uygular. 9-12. Haftalar, self-servis araştırmacı portalını, maliyet ilişkilendirme motorunu ve ekip başına bütçe uygulama panolarını oluşturur. 13-16. Haftalar, temsili eğitim işleriyle yük testi yapar, spot kesintileri için checkpoint-and-resume iş akışlarını ayarlar ve ML platformu ile araştırma ekiplerine operasyonel eğitim verir.
| Metrik | İyileşme | Detay |
|---|---|---|
| GPU kullanımı | %70-85 ortalama | Bin-packing ve kuyruk tabanlı planlama, boşta duran ayrılmış instance'ları ortadan kaldırır |
| Hesaplama maliyeti | %45-60 azalma | Checkpointing ile spot instance yönetimi, kayıp iş riski olmadan tasarruf sağlar |
| Araştırmacı bekleme süresi | %80 azalma | Fair-share planlaması ve elastik ölçeklendirme, 'ilk gelen alır' GPU istiflemeyi ortadan kaldırır |
| Deney tekrarlanabilirliği | %100 | Veri sürümünden model artifact'ına kadar tam soy ağacı takibi, her sonucun tekrarlanabilir olmasını sağlar |
| Modeli dağıtma süresi | %70 azalma | Entegre model registry'den serving pipeline'ına, araştırma ve mühendislik arasındaki manuel aktarımı ortadan kaldırır |
Otomatik, güvenli ve tekrarlanabilir teslimat hatları ile dağıtım sürelerini saatlerden dakikalara indirin.
MicrocosmWorks, A100/H100 GPU'larda MIG (Multi-Instance GPU) bölümlemesini kullanan, iş yükü farkındalıklı GPU zamanlaması uygular. Bu sayede çıkarım (inference) iş yükleri daha küçük GPU dilimlerinde izole edilirken, eğitim (training) işleri için tam GPU'lar veya çoklu-GPU tahsisleri ayrılır ve böylece karışık iş yükü etkileşiminden kaynaklanan bellek parçalanması önlenir. Orkestratör, farklı iş yükü türlerinin bellek profillerini anlar ve parçalanmış tahsislerden kaynaklanan yetersiz bellek (out-of-memory) hatalarına neden olmadan GPU kullanımını maksimize etmek için bunları zamanlar. Hem çıkarım (inference) hem de eğitim (training) çalıştıran kümeler için bu yaklaşım, safça zamanlanmış karışık kümelerde yaygın olan %30-40'lık orana kıyasla genellikle %70-85 GPU kullanımı sağlar.
MicrocosmWorks, genellikle GPU orkestrasyonunu NVIDIA GPU Operator ve özel planlama eklentileriyle Kubernetes kullanarak konuşlandırır; bu yapı, vanilla Kubernetes'in doğal olarak desteklemediği gang scheduling, fair-share queuing ve fractional GPU allocation için Run:ai veya Volcano gibi framework'lerle geliştirilmiştir. Standart Kubernetes, GPU'ları opak tam sayı kaynakları olarak ele alırken, geliştirilmiş yığınımız, eğitim performansını önemli ölçüde etkileyen yerleştirme kararları almak için GPU topolojisini (NVLink interconnects, PCIe vs NVSwitch), bellek kapasitesini ve hesaplama yeteneğini anlar. Büyük kümeler için (50+ GPU), yalnızca planlama zekası, varsayılan Kubernetes GPU planlamasına kıyasla etkin verimi %20-40 oranında artırabilir.
MicrocosmWorks, ani kapasite için on-demand cloud GPU'ları, temel sabit durum iş yükleri için reserved instances ve checkpointing özellikli hataya dayanıklı eğitim işleri için spot/preemptible instances'ı birleştiren çok katmanlı GPU tedarik stratejileri uygular — yalnızca on-demand fiyatlandırmaya kıyasla %40-60 maliyet düşüşü sağlar. Orkestrasyon katmanı, eğitim işlerini yapılandırılabilir aralıklarla otomatik olarak checkpoint'ler, spot instances geri alındığında sorunsuz öncelik kurtarmayı sağlar ve garantili kullanılabilirlik için zamana duyarlı çıkarım iş yüklerini reserved kapasiteye yönlendirir. Sürekli GPU talebi olan kuruluşlar için, sahip olunan donanım için başa baş noktasının genellikle 12-18 ay sürekli kullanım olması nedeniyle, kendi NVIDIA donanımımızla colocation'ı yalnızca bulut yaklaşımlarına karşı da değerlendiriyoruz.
MicrocosmWorks, NCCL optimize edilmiş ağ topolojisine sahip InfiniBand (400Gbps NDR) veya RoCE v2 (100-400Gbps) kumaşlarını kullanarak yüksek bant genişliğine sahip, düşük gecikmeli ara bağlantılar dağıtır. Bunun nedeni, düğümler arası gradyan senkronizasyonu bir iletişim darboğazı oluşturduğunda dağıtılmış eğitim performansının genellikle işlem gücünden ziyade ağ bağlantısına bağımlı olmasıdır. Ağ mimarisi, anahtarlar arası trafiği en aza indirmek için dağıtılmış eğitim pod'larını aynı ağ anahtarı aracılığıyla bağlanan düğümlere (leaf-spine topoloji farkındalığı) aynı yere yerleştiren topolojiye duyarlı iş yerleşimini içerir. Bulut dağıtımları için, neredeyse donanıma yakın ağ performansı sağlayan yerleştirme gruplarından ve küme ağı seçeneklerinden (AWS EFA, GCP GPUDirect-TCPX, Azure InfiniBand) yararlanıyoruz. Ağ mimarisi danışmanlığı saatte $35-$50 olarak ücretlendirilir.
MicrocosmWorks, ekip başına garanti edilmiş minimum GPU kotaları, cluster boşta kaynaklara sahip olduğunda kota üzerinde ani kapasite artışı ve yoğun eğitim dönemlerinde bile yüksek öncelikli üretim inference iş yüklerinin her zaman kaynak almasını sağlayan öncelik tabanlı ön alım politikaları ile namespace tabanlı multi-tenancy'yi uygular. Platform, ekip liderlerinin platform engineering müdahalesine gerek kalmadan eğitim job'larını gönderebileceği, queue positions'ı görüntüleyebileceği, GPU utilization'ı izleyebileceği ve ekiplerinin job priorities'ini yönetebileceği bir self-service portalı içerir. Chargeback reporting, her bir ekip ve projenin tükettiği GPU-hours'ları takip eder ve finance ekiplerinin AI infrastructure maliyetlerini business unit'leri arasında doğru bir şekilde tahsis etmelerini sağlar.