MicrocosmWorksNag-iinobasyon at Nagdidisenyo ng Digital Cosmos
Tungkol Sa AminMakipag-ugnayan
MicrocosmWorksNagpapabago at Nagdidisenyo ng Digital Cosmos

Nagbibigay ng mga solusyong IT na mahalaga. Kami ay masigasig sa teknolohiya, seguridad, at pagtulong sa mga negosyo na lumago sa pamamagitan ng maaasahan, makabagong IT infrastructure.

[email protected]
+91 7011868196
New Delhi, India

Sentro ng Paglago ng AI

AI HubInobasyon ng StartupPampabilis ng Negosyo

Mga Solusyon

Lahat ng SolusyonMga Wellness at Fitness AppsAI Video PlatformPag-unlad ng AI Agent

Mga Mapagkukunan

Mga PananawMga Gabay sa IndustriyaMga Plano ng PaggamitMga Pattern ng ArkitekturaMga Pag-aaral ng Kaso

Kumpanya

Tungkol sa AminMakipag-ugnayanAng Aming Gawain

Mga Serbisyo

Digital na PagkonsultaImprastraktura ng CloudPag-unlad ng SaaSPag-unlad ng AITeknolohiya ng Video
Pag-unlad ng ERPPagpapasadya ng ZohoPag-unlad ng OdooPagsasama ng SalesforcePag-unlad ng Custom na CRM
Pagsasama ng QuickBooksMga Solusyon sa IoTPag-unlad ng Blockchain
Pagkonsulta sa CybersecuritySuporta sa IT - L3

ยฉ 2026 MicrocosmWorks. Lahat ng karapatan ay nakalaan.

Patakaran sa PagkapribadoMga Tuntunin ng Serbisyo
Bumalik sa mga Case Study
Vector DatabasesNa-publish June 22, 2026 ยท Na-update June 22, 2026

Milvus Autoscaling sa Kubernetes na may EC2 at S3-Backed Persistent Storage

Isang AI platform na may mabilis na lumalagong vector data (embeddings para sa paghahanap, rekomendasyon, at RAG) ang nangailangan ng kanilang Milvus vector database na awtomatikong mag-scale batay sa query load at dami ng data โ€” na may matibay at cost-effective na storage na hindi mawawala kung magre-restart ang mga pods o palitan ang mga nodes.

Pag-usapan ang Iyong Proyekto
milvus-autoscaling-kubernetes-s3.webp
Vector Databases
Domain
11
Technologies
6
Key Results
Delivered
Status

Ang Hamon

Ang pagpapatakbo ng Milvus sa scale sa production ay nagdulot ng ilang hamon sa imprastraktura:

  • Nakapirming Kapasidad โ€” Hindi kayang hawakan ng static na mga deployment ng Milvus ang 10x na pagtaas ng query load sa mga oras ng rurok
  • Panganib ng Pagkawala ng Data โ€” Ang pagre-restart ng pods sa ephemeral storage ay nagdulot ng pagbuo muli ng index na tumatagal nang oras sa malalaking koleksyon
  • Kakulangan sa Kahusayan sa Gastos โ€” Ang sobrang paglaan para sa rurok na load ay nangangahulugang pagbabayad para sa idle compute sa 70% ng oras
  • Gastos sa Storage โ€” Ang mga Block storage volume na nakatali sa mga instance ay mahal para sa multi-terabyte vector datasets
  • Pagbuo Muli ng Index โ€” Ang muling pag-index ng milyun-milyong vector pagkatapos ng pagpapalit ng node ay tumatagal nang oras ng downtime
  • Multi-AZ Durability โ€” Hindi kayang makaligtas ang Single-AZ storage sa availability zone failures

Ang Aming Solusyon

Nag-deploy kami ng Milvus sa Kubernetes (EKS) na may Horizontal Pod Autoscaling para sa mga query node, Cluster Autoscaler para sa compute, at Amazon S3 bilang persistent storage backend โ€” na nag-aalis ng panganib sa pagkawala ng data at nagpapababa ng gastos sa storage ng humigit-kumulang 80%.

Arkitektura

  • Orchestration: Amazon EKS (Elastic Kubernetes Service)
  • Compute: EC2 instances (mixed instance types) na pinamamahalaan ng Cluster Autoscaler
  • Vector DB: Milvus na na-deploy sa pamamagitan ng Helm chart sa distributed mode
  • Object Storage: Amazon S3 para sa mga segment file, index file, at binlog persistence
  • Metadata: etcd cluster para sa Milvus coordination at metadata
  • Message Queue: Message streaming para sa Milvus log pipeline
  • Monitoring: Prometheus + Grafana para sa mga Milvus metrics at autoscaling signals

Milvus Distributed Architecture sa Kubernetes

Deployment ng Komponente

Ang Milvus ay tumatakbo sa distributed mode na may dedikadong uri ng node, bawat isa ay naka-deploy bilang Kubernetes workload na may independent scaling:

  • Proxy Nodes โ€” Humahawak ng mga koneksyon ng kliyente at request routing
  • Query Nodes โ€” Nagpapatupad ng vector search at naglo-load ng mga segment sa memory
  • Data Nodes โ€” Humahawak ng write paths at nagpa-flush ng mga segment sa S3
  • Index Nodes โ€” Nagtatayo ng vector index at nagsusulat sa S3
  • Coordinator โ€” Cluster coordination at timestamp allocation
  • etcd โ€” Metadata storage at service discovery
  • Message Queue โ€” Log streaming at write-ahead log

Horizontal Pod Autoscaling (HPA)

Autoscaling ng Query Node

Ang mga query node ang pangunahing target ng scaling โ€” naglo-load sila ng mga vector segment sa memory at nagpapatupad ng paghahanap. Ang scaling ay hinihimok ng maraming metrics kabilang ang CPU utilization, memory utilization, query queue depth, at P99 query latency. Ang HPA ay naka-configure na may angkop na min/max replicas, mabilis na scale-up para sa paghawak ng spikes, at unti-unting scale-down upang maiwasan ang flapping.

Autoscaling ng Index Node

Ang mga index node ay nag-i-scale batay sa mga pending na index build job โ€” nag-i-scale up kapag ang build queue ay may pending items at nag-i-scale down kapag idle.

EC2 Cluster Autoscaler

Diskarte sa Instance

  • Node Groups: Maraming node group na may iba't ibang uri ng instance para sa pag-optimize ng gastos
  • Query Workload: Memory-optimized instances para sa in-memory vector segments
  • Index Workload: Compute-optimized instances para sa CPU-intensive index building
  • Spot Instances: Ang mga index node at non-critical data node ay tumatakbo sa spot instances para sa malaking tipid
  • On-Demand: Ang mga query node at coordinator sa on-demand instances para sa stability

Pag-uugali ng Scaling

Kapag ang HPA ay lumilikha ng mga bagong pods na hindi ma-schedule, ang Cluster Autoscaler ay nagpo-provision ng mga bagong EC2 instance sa naaangkop na node group. Ang mga bagong query node ay naglo-load ng kanilang nakatalagang segment mula sa S3 sa memory at nagsisimulang magsilbi ng mga query, na may kabuuang proseso ng scale-up na nakukumpleto sa loob ng ilang minuto.

S3-Backed Persistent Storage

Bakit S3 Sa Halip na Block Storage

Nagbibigay ang S3 ng malaking bentahe kaysa sa block storage para sa Milvus:

  • ~80% na mas mababang gastos sa storage para sa malalaking datasets
  • 11-nines durability na may built-in na multi-AZ replication
  • Walang limitasyong scaling nang walang manual volume resizing
  • Pod-independent โ€” Laging available ang data anuman ang lifecycle ng pod o node
  • No AZ lock-in โ€” Maaaring ma-access ang data mula sa anumang availability zone

Daloy ng Data sa S3

  1. Write Path: Ang mga data node ay nagba-buffer ng inserts sa memory, pagkatapos ay nagpa-flush ng mga sealed segment sa S3
  2. Index Build: Ang mga index node ay nagbabasa ng mga segment mula sa S3, nagtatayo ng indexes, at nagsusulat ng mga index file pabalik sa S3
  3. Query Path: Ang mga query node ay nagda-download ng mga segment at indexes mula sa S3, naglo-load sa memory, at nagbibigay ng mga query
  4. Recovery: Sa pagre-restart ng pod, ang mga query node ay muling nagda-download ng mga nakatalagang segment mula sa S3 (walang pagkawala ng data)

Pag-optimize ng Performance ng S3

  • Segment size tuning ay nagbabalanse sa mga gastos sa S3 request laban sa pagiging bago ng data
  • Local SSD caching sa NVMe instance storage ay iniiwasan ang paulit-ulit na S3 reads para sa hot segments
  • Parallel downloads ay nagbibigay-daan sa mabilis na pagsisimula ng query node
  • Lifecycle policies ay nag-aarkibo ng lumang data sa mas murang storage tiers

Pagsubaybay at Observability

Kasama sa deployment ang komprehensibong pagsubaybay sa pamamagitan ng Prometheus at Grafana:

  • Query Performance โ€” Latency distribution, QPS, cache hit rate
  • Cluster Overview โ€” Bilang ng node, status ng pod, paggamit ng resource
  • Storage Health โ€” Paggamit ng S3, bilang ng segment, flush rates
  • Autoscaling Events โ€” Mga event ng HPA, pag-scale ng node, pod scheduling latency
  • Alerting โ€” Awtomatikong alerto para sa mataas na latency, OOM risk, flush failures, at capacity limits

Mga Pangunahing Katangian

  1. Query Node HPA โ€” Awtomatikong scaling batay sa CPU, memory, latency, at queue depth
  2. EC2 Cluster Autoscaler โ€” Dynamic na pagpo-provision ng node na may mixed instance types
  3. S3 Persistence โ€” 11-nines durability, ~80% na mas mura kaysa sa block storage, nakakaligtas sa AZ failures
  4. Spot Instances โ€” Index at data nodes sa spot para sa malaking tipid sa compute
  5. Local SSD Cache โ€” Ang NVMe caching ay nag-aalis ng paulit-ulit na S3 reads para sa hot segments
  6. Zero-Downtime Recovery โ€” Nagre-reload ang mga pod restart ng mga segment mula sa S3 nang walang pagkawala ng data
  7. Multi-AZ โ€” S3 storage + multi-AZ node groups para sa full AZ failure tolerance
  8. Observability โ€” Prometheus + Grafana na may Milvus-specific metrics at autoscaling visibility

Mga Resulta

Gastos sa Storage: ~80% na pagbawas kumpara sa block-storage-backed deployment
Gastos sa Compute: ~40% na pagbawas sa pamamagitan ng spot instances at right-sized autoscaling
Query Latency: P99 na napanatili sa ilalim ng 200ms sa panahon ng 10x load spikes

Technology Stack

MilvusAmazon EKSKubernetes HPACluster AutoscalerAmazon EC2Amazon S3etcdPrometheusGrafanaHelmNVMe Instance Storage

caseStudyDetail.more Mga Case Study

Tuklasin ang higit pa sa aming mga teknikal na implementasyon

AI Accounting

Pagpoproseso ng Invoice na Pinapagana ng AI gamit ang OCR at Integrasyon ng QuickBooks

Isang katamtamang laking negosyo na nagpoproseso ng daan-daang invoice ng vendor buwan-buwan ang kinailangan alisin ang manu-manong pagpasok ng data sa pamamagitan ng awtomatikong pagkuha ng data ng invoice gamit ang AI/OCR at direktang i-sync ito sa QuickBooks para sa bookkeeping at pagsubaybay sa pagbabayad.

Basahin ang Case Study
Video Encoding

Client-Side Ad Insertion (CSAI) na may pag-parse ng SCTE-35 Marker at Integrasyon ng Multi-Platform Player

Isang platform para sa video streaming ay nangangailangan na magpatupad ng Client-Side Ad Insertion (CSAI) sa mga web, mobile, at connected TV apps โ€” na nagbibigay-daan sa mga personalized, device-level na karanasan sa ad na may buong suporta sa interaksyon ng ad (mga clickable overlay, companion banner, skip button) na hindi kayang ibigay ng server-side insertion.

Mga Madalas Itanong

MicrocosmWorks configured horizontal pod autoscaling with custom metrics from Milvus's built-in memory usage exporter, triggering scale-out events when any query node exceeds 75% memory utilization. Collection segments are automatically redistributed across new nodes using Milvus's segment manager, preventing any single node from becoming a bottleneck.

MicrocosmWorks selected S3-backed storage using MinIO as the object storage layer because it decouples storage from compute, allowing query nodes to scale independently without provisioning new EBS volumes. This architecture reduces storage costs by approximately 60% compared to gp3 EBS volumes while maintaining sub-100ms segment load times from S3.

MicrocosmWorks configured the deployment with replica sets for each Milvus component, including query nodes, index nodes, and data nodes, with pod disruption budgets ensuring minimum availability during rolling updates. Since all persistent data resides in S3, a failed node's replacement can immediately access all segments without data migration.

MicrocosmWorks found that r6i.2xlarge instances provide the optimal cost-to-performance ratio for Milvus query workloads, offering 64GB of memory for in-memory segment caching at a competitive spot price. For GPU-accelerated index building, g5.xlarge instances with NVIDIA A10G GPUs reduced index build times by 8x compared to CPU-only builds.

MicrocosmWorks delivers Kubernetes infrastructure projects at rates of $30-$50/hr, with a Milvus autoscaling deployment including Helm chart customization, HPA configuration, S3 integration, and monitoring setup typically requiring 150-250 hours. Ongoing managed support for cluster optimization and upgrades is available at the same hourly rates.

Handa nang Baguhin ang Iyong Negosyo?

Pag-usapan natin kung paano namin mailalapat ang katulad na mga solusyon sa iyong mga hamon.

Makipag-ugnayancaseStudyDetail.viewAllCaseStudies
Oras ng Pagbawi: Pod restart sa paghahatid ng queries sa 30-90 segundo (S3 segment reload)
Durability: Walang pagkawala ng data sa maraming pagpapalit ng node at AZ failovers
Scale: Nahawakan ang 50M+ vectors na may awtomatikong scaling mula 2 hanggang 20 query node
Basahin ang Case Study
Web Scraping

Platform sa Pag-scrape at Pagbuo ng Nilalaman ng Blog na Pinapagana ng AI

Isang kumpanya ng media ang nangailangan ng matalinong platform ng nilalaman na kayang i-automate ang paggawa ng nilalaman ng blog sa pamamagitan ng pag-scrape ng kasalukuyang nilalaman ng web, pagsusuri nito gamit ang AI, at pagbuo ng orihinal, naka-optimize para sa SEO na mga post sa blog mula sa nakuha na datos.

Basahin ang Case Study