Vector DatabasesDipublikasikan June 22, 2026 · Diperbarui June 22, 2026

Milvus Autoscaling di Kubernetes dengan EC2 dan Penyimpanan Persisten yang Didukung S3

Platform AI dengan data vektor yang berkembang pesat (embeddings untuk pencarian, rekomendasi, dan RAG) memerlukan database vektor Milvus mereka untuk melakukan scaling secara otomatis berdasarkan beban kueri dan volume data — dengan penyimpanan yang tahan lama, hemat biaya yang tidak akan hilang jika pod di-restart atau node diganti.

Diskusikan Proyek Anda

Vector Databases

Domain

Technologies

Key Results

Delivered

Status

Tantangan

Menjalankan Milvus dalam skala produksi menghadirkan beberapa tantangan infrastruktur:

Kapasitas Tetap — Deployment Milvus statis tidak dapat menangani lonjakan beban kueri 10x selama jam sibuk
Risiko Kehilangan Data — Restart pod pada penyimpanan ephemeral menyebabkan pembangunan ulang indeks yang memakan waktu berjam-jam pada koleksi besar
In-efisiensi Biaya — Over-provisioning untuk beban puncak berarti membayar untuk komputasi idle 70% dari waktu
Biaya Penyimpanan — Volume block storage yang terikat pada instance mahal untuk dataset vektor multi-terabyte
Pembangunan Ulang Indeks — Mengindeks ulang jutaan vektor setelah penggantian node membutuhkan waktu henti berjam-jam
Durabilitas Multi-AZ — Penyimpanan Single-AZ tidak dapat bertahan dari kegagalan zona ketersediaan

Solusi Kami

Kami menerapkan Milvus di Kubernetes (EKS) dengan Horizontal Pod Autoscaling untuk node kueri, Cluster Autoscaler untuk komputasi, dan Amazon S3 sebagai backend penyimpanan persisten — menghilangkan risiko kehilangan data dan mengurangi biaya penyimpanan hingga ~80%.

Arsitektur

Orkestrasi: Amazon EKS (Elastic Kubernetes Service)
Komputasi: Instance EC2 (tipe instance campuran) yang dikelola oleh Cluster Autoscaler
Vector DB: Milvus diterapkan melalui Helm chart dalam mode terdistribusi
Penyimpanan Objek: Amazon S3 untuk file segmen, file indeks, dan persistensi binlog
Metadata: Cluster etcd untuk koordinasi dan metadata Milvus
Antrian Pesan: Message streaming untuk pipeline log Milvus
Pemantauan: Prometheus + Grafana untuk metrik Milvus dan sinyal autoscaling

Arsitektur Terdistribusi Milvus di Kubernetes

Deployment Komponen

Milvus berjalan dalam mode terdistribusi dengan tipe node khusus, masing-masing diterapkan sebagai workload Kubernetes dengan scaling independen:

Node Proxy — Menangani koneksi klien dan perutean permintaan
Node Kueri — Mengeksekusi pencarian vektor dan memuat segmen ke dalam memori
Node Data — Menangani jalur penulisan dan membersihkan segmen ke S3
Node Indeks — Membangun indeks vektor dan menulis ke S3
Koordinator — Koordinasi cluster dan alokasi timestamp
etcd — Penyimpanan metadata dan service discovery
Antrian Pesan — Log streaming dan write-ahead log

Horizontal Pod Autoscaling (HPA)

Autoscaling Node Kueri

Node kueri adalah target scaling utama — mereka memuat segmen vektor ke dalam memori dan mengeksekusi pencarian. Scaling didorong oleh beberapa metrik termasuk CPU utilization, memory utilization, query queue depth, dan P99 query latency. HPA dikonfigurasi dengan replika min/max yang sesuai, scale-up cepat untuk menangani lonjakan, dan scale-down bertahap untuk menghindari flapping.

Autoscaling Node Indeks

Node indeks melakukan scaling berdasarkan pekerjaan pembangunan indeks yang tertunda — scaling up ketika antrian pembangunan memiliki item yang tertunda dan scaling back down ketika idle.

EC2 Cluster Autoscaler

Strategi Instance

Grup Node: Beberapa grup node dengan tipe instance berbeda untuk optimasi biaya
Workload Kueri: Instance yang dioptimalkan memori untuk segmen vektor in-memory
Workload Indeks: Instance yang dioptimalkan komputasi untuk pembangunan indeks yang intensif CPU
Spot Instances: Node indeks dan node data non-kritis berjalan pada spot instances untuk penghematan signifikan
On-Demand: Node kueri dan koordinator pada instance on-demand untuk stabilitas

Perilaku Scaling

Ketika HPA membuat pod baru yang tidak dapat dijadwalkan, Cluster Autoscaler menyediakan instance EC2 baru di grup node yang sesuai. Node kueri baru kemudian memuat segmen yang ditugaskan dari S3 ke dalam memori dan mulai melayani kueri, dengan total proses scale-up selesai dalam hitungan menit.

Penyimpanan Persisten yang Didukung S3

Mengapa S3 daripada Block Storage

Biaya penyimpanan ~80% lebih rendah untuk dataset besar
Durabilitas 11-nines dengan replikasi multi-AZ bawaan
Scaling tanpa batas tanpa pengubahan ukuran volume manual
Pod-independent — Data selalu tersedia terlepas dari siklus hidup pod atau node
Tanpa AZ lock-in — Data dapat diakses dari zona ketersediaan mana pun

Alur Data dengan S3

Jalur Penulisan: Node data menyangga penyisipan dalam memori, lalu membersihkan segmen yang disegel ke S3
Pembangunan Indeks: Node indeks membaca segmen dari S3, membangun indeks, dan menulis file indeks kembali ke S3
Jalur Kueri: Node kueri mengunduh segmen dan indeks dari S3, memuatnya ke dalam memori, dan melayani kueri
Pemulihan: Saat pod di-restart, node kueri mengunduh ulang segmen yang ditugaskan dari S3 (tanpa kehilangan data)

Optimasi Performa S3

Penyetelan ukuran segmen menyeimbangkan biaya permintaan S3 vs. kesegaran data
Caching SSD Lokal pada penyimpanan instance NVMe menghindari pembacaan S3 berulang untuk segmen "hot"
Unduhan Paralel memungkinkan startup node kueri yang cepat
Kebijakan siklus hidup mengarsipkan data lama ke tingkatan penyimpanan yang lebih murah

Pemantauan & Observabilitas

Deployment ini mencakup pemantauan komprehensif melalui Prometheus dan Grafana:

Performa Kueri — Distribusi latensi, QPS, cache hit rate
Gambaran Umum Cluster — Jumlah node, status pod, pemanfaatan sumber daya
Kesehatan Penyimpanan — Penggunaan S3, jumlah segmen, flush rates
Event Autoscaling — Event HPA, penskalaan node, latensi penjadwalan pod
Peringatan — Peringatan otomatis untuk latensi tinggi, risiko OOM, kegagalan flush, dan batas kapasitas

Fitur Utama

HPA Node Kueri — Scaling otomatis berdasarkan CPU, memori, latensi, dan kedalaman antrian
EC2 Cluster Autoscaler — Penyediaan node dinamis dengan tipe instance campuran
S3 Persistence — Durabilitas 11-nines, ~80% lebih murah daripada block storage, bertahan dari kegagalan AZ
Spot Instances — Node indeks dan data pada spot instance untuk penghematan komputasi yang signifikan
Cache SSD Lokal — Caching NVMe menghilangkan pembacaan S3 berulang untuk segmen "hot"
Pemulihan Tanpa Downtime — Restart pod memuat ulang segmen dari S3 tanpa kehilangan data
Multi-AZ — Penyimpanan S3 + grup node multi-AZ untuk toleransi kegagalan AZ penuh
Observabilitas — Prometheus + Grafana dengan metrik khusus Milvus dan visibilitas autoscaling

Hasil

Biaya Penyimpanan: Pengurangan ~80% dibandingkan deployment yang didukung block storage

Biaya Komputasi: Pengurangan ~40% melalui spot instances dan autoscaling berukuran tepat

Latensi Kueri: P99 dipertahankan di bawah 200ms selama lonjakan beban 10x

Tumpukan Teknologi

MilvusAmazon EKSKubernetes HPACluster AutoscalerAmazon EC2Amazon S3etcdPrometheusGrafanaHelmNVMe Instance Storage

caseStudyDetail.more Studi Kasus

Jelajahi lebih banyak implementasi teknis kami

AI Accounting

Pemrosesan Faktur Bertenaga AI dengan OCR dan Integrasi QuickBooks

Sebuah bisnis menengah yang memproses ratusan faktur vendor setiap bulan perlu menghilangkan entri data manual dengan mengekstraksi data faktur secara otomatis menggunakan AI/OCR dan menyinkronkannya langsung ke QuickBooks untuk pembukuan dan pelacakan pembayaran.

Baca Studi Kasus

Video Encoding

Penyisipan Iklan Sisi Klien (CSAI) dengan Penguraian Penanda SCTE-35 & Integrasi Pemutar Multi-Platform

Sebuah platform streaming video perlu mengimplementasikan Client-Side Ad Insertion (CSAI) di seluruh aplikasi web, seluler, dan TV terhubung — memungkinkan pengalaman iklan yang dipersonalisasi di tingkat perangkat dengan dukungan interaksi iklan penuh (overlay yang dapat diklik, banner pendamping, tombol lewati) yang tidak dapat disediakan oleh penyisipan sisi server.

Pertanyaan yang Sering Diajukan

MicrocosmWorks mengkonfigurasi horizontal pod autoscaling dengan custom metrics dari memory usage exporter bawaan Milvus, memicu event scale-out ketika node query mana pun melebihi 75% utilisasi memori. Segmen koleksi secara otomatis didistribusikan ulang ke seluruh node baru menggunakan segment manager Milvus, mencegah satu node pun menjadi bottleneck.

MicrocosmWorks memilih penyimpanan berbasis S3 menggunakan MinIO sebagai lapisan *object storage* karena ia memisahkan penyimpanan dari *compute*, memungkinkan *query nodes* untuk melakukan penskalaan secara independen tanpa menyediakan volume EBS baru. Arsitektur ini mengurangi biaya penyimpanan sekitar 60% dibandingkan dengan volume EBS gp3 sambil mempertahankan waktu muat segmen di bawah 100 milidetik dari S3.

MicrocosmWorks mengkonfigurasi deployment dengan set replika untuk setiap komponen Milvus, termasuk node kueri, node indeks, dan node data, dengan anggaran gangguan pod yang memastikan ketersediaan minimum selama pembaruan bergulir. Karena semua data persisten berada di S3, penggantian node yang gagal dapat segera mengakses semua segmen tanpa migrasi data.

MicrocosmWorks menemukan bahwa instance r6i.2xlarge memberikan rasio cost-to-performance yang optimal untuk beban kerja kueri Milvus, menawarkan 64GB memory untuk in-memory segment caching dengan harga spot yang kompetitif. Untuk pembangunan indeks yang dipercepat GPU, instance g5.xlarge dengan GPU NVIDIA A10G mengurangi waktu pembangunan indeks hingga 8x dibandingkan dengan pembangunan yang hanya menggunakan CPU.

MicrocosmWorks menyediakan proyek infrastruktur Kubernetes dengan tarif $30-$50/jam, dengan penerapan Milvus autoscaling termasuk kustomisasi Helm chart, konfigurasi HPA, integrasi S3, dan penyiapan pemantauan yang biasanya memerlukan 150-250 jam. Dukungan terkelola berkelanjutan untuk optimisasi dan peningkatan klaster tersedia dengan tarif per jam yang sama.

Siap Mentransformasi Bisnis Anda?

Mari diskusikan bagaimana kami dapat menerapkan solusi serupa untuk tantangan Anda.

Hubungi Kami caseStudyDetail.viewAllCaseStudies