Question 1

Aynı küme üzerinde karışık çıkarım (inference) ve eğitim (training) iş yükleri çalıştırırken GPU bellek parçalanmasını nasıl yönetiyorsunuz?

Accepted Answer

MicrocosmWorks, A100/H100 GPU'larda MIG (Multi-Instance GPU) bölümlemesini kullanan, iş yükü farkındalıklı GPU zamanlaması uygular. Bu sayede çıkarım (inference) iş yükleri daha küçük GPU dilimlerinde izole edilirken, eğitim (training) işleri için tam GPU'lar veya çoklu-GPU tahsisleri ayrılır ve böylece karışık iş yükü etkileşiminden kaynaklanan bellek parçalanması önlenir. Orkestratör, farklı iş yükü türlerinin bellek profillerini anlar ve parçalanmış tahsislerden kaynaklanan yetersiz bellek (out-of-memory) hatalarına neden olmadan GPU kullanımını maksimize etmek için bunları zamanlar. Hem çıkarım (inference) hem de eğitim (training) çalıştıran kümeler için bu yaklaşım, safça zamanlanmış karışık kümelerde yaygın olan %30-40'lık orana kıyasla genellikle %70-85 GPU kullanımı sağlar.

Question 2

MicrocosmWorks hangi GPU orkestrasyon platformunu öneriyor ve AI iş yükleri için vanilla Kubernetes ile nasıl karşılaştırılır?

Accepted Answer

MicrocosmWorks, genellikle GPU orkestrasyonunu NVIDIA GPU Operator ve özel planlama eklentileriyle Kubernetes kullanarak konuşlandırır; bu yapı, vanilla Kubernetes'in doğal olarak desteklemediği gang scheduling, fair-share queuing ve fractional GPU allocation için Run:ai veya Volcano gibi framework'lerle geliştirilmiştir. Standart Kubernetes, GPU'ları opak tam sayı kaynakları olarak ele alırken, geliştirilmiş yığınımız, eğitim performansını önemli ölçüde etkileyen yerleştirme kararları almak için GPU topolojisini (NVLink interconnects, PCIe vs NVSwitch), bellek kapasitesini ve hesaplama yeteneğini anlar. Büyük kümeler için (50+ GPU), yalnızca planlama zekası, varsayılan Kubernetes GPU planlamasına kıyasla etkin verimi %20-40 oranında artırabilir.

Question 3

MicrocosmWorks, eğitim işlerinin değişken talep modelleri olduğunda GPU kümelerinin maliyetini nasıl optimize eder?

Accepted Answer

MicrocosmWorks, ani kapasite için on-demand cloud GPU'ları, temel sabit durum iş yükleri için reserved instances ve checkpointing özellikli hataya dayanıklı eğitim işleri için spot/preemptible instances'ı birleştiren çok katmanlı GPU tedarik stratejileri uygular — yalnızca on-demand fiyatlandırmaya kıyasla %40-60 maliyet düşüşü sağlar. Orkestrasyon katmanı, eğitim işlerini yapılandırılabilir aralıklarla otomatik olarak checkpoint'ler, spot instances geri alındığında sorunsuz öncelik kurtarmayı sağlar ve garantili kullanılabilirlik için zamana duyarlı çıkarım iş yüklerini reserved kapasiteye yönlendirir. Sürekli GPU talebi olan kuruluşlar için, sahip olunan donanım için başa baş noktasının genellikle 12-18 ay sürekli kullanım olması nedeniyle, kendi NVIDIA donanımımızla colocation'ı yalnızca bulut yaklaşımlarına karşı da değerlendiriyoruz.

Question 4

MicrocosmWorks, birden çok GPU düğümü arasında dağıtılmış eğitim için hangi ağ mimarisini uygular?

Accepted Answer

MicrocosmWorks, NCCL optimize edilmiş ağ topolojisine sahip InfiniBand (400Gbps NDR) veya RoCE v2 (100-400Gbps) kumaşlarını kullanarak yüksek bant genişliğine sahip, düşük gecikmeli ara bağlantılar dağıtır. Bunun nedeni, düğümler arası gradyan senkronizasyonu bir iletişim darboğazı oluşturduğunda dağıtılmış eğitim performansının genellikle işlem gücünden ziyade ağ bağlantısına bağımlı olmasıdır. Ağ mimarisi, anahtarlar arası trafiği en aza indirmek için dağıtılmış eğitim pod'larını aynı ağ anahtarı aracılığıyla bağlanan düğümlere (leaf-spine topoloji farkındalığı) aynı yere yerleştiren topolojiye duyarlı iş yerleşimini içerir. Bulut dağıtımları için, neredeyse donanıma yakın ağ performansı sağlayan yerleştirme gruplarından ve küme ağı seçeneklerinden (AWS EFA, GCP GPUDirect-TCPX, Azure InfiniBand) yararlanıyoruz. Ağ mimarisi danışmanlığı saatte $35-$50 olarak ücretlendirilir.

Question 5

GPU orkestrasyon platformu, birden fazla AI ekibine sahip kuruluşlar için çok kiracılı erişim kontrolünü ve kaynak adilliğini nasıl yönetiyor?

Accepted Answer

MicrocosmWorks, ekip başına garanti edilmiş minimum GPU kotaları, cluster boşta kaynaklara sahip olduğunda kota üzerinde ani kapasite artışı ve yoğun eğitim dönemlerinde bile yüksek öncelikli üretim inference iş yüklerinin her zaman kaynak almasını sağlayan öncelik tabanlı ön alım politikaları ile namespace tabanlı multi-tenancy'yi uygular. Platform, ekip liderlerinin platform engineering müdahalesine gerek kalmadan eğitim job'larını gönderebileceği, queue positions'ı görüntüleyebileceği, GPU utilization'ı izleyebileceği ve ekiplerinin job priorities'ini yönetebileceği bir self-service portalı içerir. Chargeback reporting, her bir ekip ve projenin tükettiği GPU-hours'ları takip eder ve finance ekiplerinin AI infrastructure maliyetlerini business unit'leri arasında doğru bir şekilde tahsis etmelerini sağlar.

Katman	Teknolojiler
Backend	Python, Go, FastAPI, gRPC, Ray
AI / ML	PyTorch, DeepSpeed, Hugging Face Transformers, NVIDIA NCCL, TensorRT, vLLM
Frontend	React, Grafana, MLflow UI, custom Jupyter Hub portal
Veritabanı	PostgreSQL (metadata), MinIO (artifact storage), Redis (job queue), TimescaleDB (metrics)
Altyapı	Kubernetes (EKS with GPU nodes), Karpenter, NVIDIA GPU Operator, Terraform, ArgoCD, Prometheus, DCGM Exporter

Metrik	İyileşme	Detay
GPU kullanımı	%70-85 ortalama	Bin-packing ve kuyruk tabanlı planlama, boşta duran ayrılmış instance'ları ortadan kaldırır
Hesaplama maliyeti	%45-60 azalma	Checkpointing ile spot instance yönetimi, kayıp iş riski olmadan tasarruf sağlar
Araştırmacı bekleme süresi	%80 azalma	Fair-share planlaması ve elastik ölçeklendirme, 'ilk gelen alır' GPU istiflemeyi ortadan kaldırır
Deney tekrarlanabilirliği	%100	Veri sürümünden model artifact'ına kadar tam soy ağacı takibi, her sonucun tekrarlanabilir olmasını sağlar
Modeli dağıtma süresi	%70 azalma	Entegre model registry'den serving pipeline'ına, araştırma ve mühendislik arasındaki manuel aktarımı ortadan kaldırır

AI İş Yükleri için GPU Küme Orkestrasyonu

Zorluk

Daha Fazla Plan

Düzenlenmiş Sektörler için Hibrit Bulut

Bu Çözümü Uygulamak İster misiniz?

Çözümümüz

Sistem Mimarisi

Teknoloji Yığını

Uygulama Yaklaşımı

Temel Farklılaştırıcılar

Beklenen Etki

İlgili Hizmetler

İlgili Kullanım Durumları

CI/CD Hattı Modernizasyonu

Serverless Mikroservis Dönüşümü

Sıkça Sorulan Sorular