MicrocosmWorks创新与构建数字宇宙
关于我们联系我们
MicrocosmWorks创新与构建数字宇宙

提供重要的IT解决方案。我们热衷于技术、安全,并通过可靠、创新的IT基础设施帮助企业成长。

[email protected]
+91 7011868196
New Delhi, India

AI增长中心

AI中心初创创新企业加速器

解决方案

所有解决方案健康与健身应用AI视频平台AI代理开发

资源

见解行业指南用例蓝图架构模式案例研究

公司

关于我们联系我们我们的工作

服务

数字咨询云基础设施SaaS 开发AI 开发视频技术
ERP 开发Zoho 定制Odoo 开发Salesforce 集成定制 CRM 开发
QuickBooks 集成物联网解决方案区块链开发
网络安全咨询IT 支持 - L3

© 2026 MicrocosmWorks. 保留所有权利。

隐私政策服务条款
返回架构模式
AI / DataEnterprise

可扩展向量数据库架构

当向量数量为 10K 时,嵌入式搜索很容易。但当向量数量达到 100M 且 P99 延迟要求低于 100 毫秒时,这就成了一个基础设施问题——而本模式正是为此而生。

June 22, 2026
|
2 topics covered
讨论此架构
scalable-vector-database-architecture.webp
AI / Data
Category
Enterprise
Complexity
AI/机器学习, 电子商务
Industries
2+
Technologies

何时需要此架构

您的 RAG 流水线或推荐系统在开发阶段,处理数千个向量时运行良好。但现在您拥有 5000 万个嵌入,查询需要低于 100 毫秒的延迟,索引持续增长,并且内存消耗巨大。您需要一种向量数据库架构,它能够横向扩展,高效管理内存(并非所有数据都需要驻留在 RAM 中),在数据摄取期间处理并发写入而不会降低查询性能,并且作为本质上的搜索索引,其基础设施成本每月不超过 1 万美元。

模式概述

可扩展向量数据库架构解决了在生产规模下操作向量搜索的挑战:跨节点索引分区(分片)、分层存储(热段在内存中,温段在 SSD 上,冷段在 S3 上)、带有负载均衡的查询路由以及基于查询负载和索引大小的自动伸缩。该模式涵盖了部署拓扑、容量规划、读/写隔离和成本优化。它是使 RAG 和推荐系统在大规模下可行的基础设施层。

Related Architecture Patterns

Explore more design patterns and system architectures

rag-pipeline-architecture.webp
AI / Data

RAG 流水线架构

让您的 LLM 无需微调即可访问您的数据。RAG 弥合了通用语言模型与领域特定知识之间的鸿沟。

AdvancedView
ai-ml-pipeline-architecture.webp

常见问题

MicrocosmWorks 通常推荐在团队已使用 PostgreSQL 且向量数量少于 500 万到 1000 万的项目中使用 pgvector,因为它避免引入新的基础设施组件,并原生支持混合的 SQL 加向量查询。超过 1000 万向量时,或者在高并发下需要低于 50 毫秒的 p99 延迟时,像 Qdrant、Weaviate 或 Milvus 这样专门构建的向量数据库通过优化的索引算法和 GPU 加速搜索,能提供显著更好的性能。我们通过基准测试客户实际的查询模式和增长预测,在架构审查期间帮助他们做出这个决定。

MicrocosmWorks 设计的向量数据库集群采用基于哈希或基于元数据的分片策略,将向量分布到各个节点,同时保持语义相关数据共置,以实现高效搜索。我们实现查询路由层,将搜索请求扇出到相关分片,并使用全局 Top-K 聚合合并结果,即使跨越数十个分片也能保持亚 100 毫秒的延迟。我们的监控仪表板跟踪分片均衡、查询分布和复制延迟,以防止在数据集扩展时出现热点。

MicrocosmWorks 应用 scalar quantization(将 float32 降至 int8)和 product quantization,可将向量存储压缩 4-8 倍,通常 recall 下降不到 2%。我们在部署到生产环境之前,通过对您实际的查询工作负载进行 A/B testing 来验证这一点。我们还实施了两阶段 retrieval 方法,其中 quantized vectors 用于初始 candidate retrieval,而 full-precision vectors 仅用于 top 结果的 final re-ranking。这种 hybrid strategy 使客户能够以极低的成本存储数亿个向量,同时保持搜索质量与 uncompressed operation 无异。

MicrocosmWorks 将矢量数据库部署在多副本配置中,利用同步复制确保写入持久性,并将读取副本分布在不同可用区,以实现容错和负载均衡。我们配置了采用健康检查驱动的主节点选举的自动化故障转移机制,确保节点故障时,读取不可用时间少于 10 秒,并且数据零丢失。我们的 infrastructure-as-code 模板包含预配置的备份计划、point-in-time recovery 以及针对每种矢量数据库引擎量身定制的 disaster recovery runbooks。

MicrocosmWorks 构建多集合的 vector database 部署,其中每个应用程序或 embedding model 都有其独立的 collection,并带有适当的 index configurations,同时共享底层的 cluster infrastructure 以实现成本效益。我们实现了一个统一的 query gateway,它根据应用程序上下文将请求路由到正确的 collection,并应用 collection-specific 的预处理,例如使用匹配模型进行 query embedding。这种 multi-tenant vector database 方法与每个应用程序运行单独的 cluster 相比,通常可将 infrastructure costs 降低 40-60%。

需要帮助实现此架构吗?

我们的架构师可以帮助您根据您的具体要求设计和构建使用此模式的系统。

联系我们

参考架构

该架构将向量数据库节点部署在 集群拓扑 中,查询节点(读取路径)和数据节点(写入路径)分离。 摄取流水线 通过写入缓冲处理嵌入生成和批量 upsert,以避免影响查询延迟。 查询路由器 通过分片级并行化在读取副本之间分配搜索。 分层存储 将不常访问的段从内存移动到 SSD 再到 S3,并具有透明的查询时加载。 自动伸缩 根据查询 QPS 和 P99 延迟调整副本数量。

核心组件:
  • 集群管理:Milvus(我们大规模部署的默认选择),使用 etcd 进行元数据协调,MinIO/S3 用于段存储,Pulsar/Kafka 用于预写日志。当操作简便性优先于成本时,也可选择托管服务(Pinecone, Zilliz Cloud)
  • 分片与分区策略:逻辑分区与数据边界对齐(按租户、按文档集合、按时间窗口)。每个分区都可独立搜索,实现无需扫描完整索引的过滤查询。分片分布在不同节点上,实现并行查询执行
  • 分层存储引擎:热层(内存中的 HNSW/IVF 索引)用于频繁查询的集合。温层(内存映射的 SSD)用于具有中等查询负载的大型集合。冷层(S3 支持)用于可搜索但容忍更高延迟的归档集合。基于访问模式进行段级提升/降级
  • 自动伸缩控制器:Kubernetes 上的水平 Pod 自动伸缩器(HPA),根据 QPS 和 P99 延迟指标伸缩查询节点。当延迟超出阈值时进行扩容,当持续低利用率时进行缩容。摄取工作器单独伸缩,以处理突发上传而不会影响查询性能

设计决策与权衡

Milvus vs. Pinecone vs. Qdrant vs. pgvector。 对于向量数量 < 1M 且已使用 PostgreSQL 并能容忍约 200 毫秒延迟的场景,pgvector 表现良好。Pinecone 适用于希望零运维负担并接受其定价的团队(扩展性良好,但在超过 10M 向量后会变得昂贵)。Qdrant 提供简洁的 API 和出色的单节点性能。Milvus 适用于严肃的规模需求——它是唯一具有真正分布式架构、分层存储和生产级分片的开源选项。MW 默认选择 Milvus 用于 >5M 向量的场景,对于优先考虑托管简便性的团队则选择 Pinecone。 HNSW vs. IVF_FLAT vs. IVF_PQ。 HNSW (Hierarchical Navigable Small World) 在低延迟下提供最佳召回率,但内存使用量最大(完整向量驻留在 RAM 中)。IVF_FLAT 对向量进行聚类,只搜索相关聚类——在速度和内存之间取得了良好平衡。IVF_PQ (Product Quantization) 压缩向量以大幅节省内存,但会降低 3-8% 的召回率。MW 对于少于 10M 向量的集合使用 HNSW,对于内存成本很重要的大型集合,则切换到带有 PQ 优化的 IVF_PQ(根据完整向量重新评分顶层候选)。 写入隔离。 在大多数向量数据库中,摄取期间的并发写入会降低查询延迟。MW 分离了写入路径:新向量在预写日志中进行缓冲,定期刷新到密封段中,并在流量较低时段合并到可搜索索引中。对于需要实时摄取(例如,实时文档处理)的系统,我们部署独立的摄取和查询节点池,并分配不同的资源。 成本优化。 向量数据库对内存需求很高。一个包含 1 亿个向量、1536 维嵌入的集合,在 HNSW 模式下大约需要 600GB 的 RAM。MW 通过以下方式优化成本:(a) 在可行的情况下进行降维(Matryoshka embeddings, PCA),(b) 量化(标量或乘积量化),(c) 分层存储以将冷段从 RAM 中移除,以及 (d) 调整嵌入维度大小——在 1536 维过高时,768 维通常已足够。

技术选型

层技术
向量数据库Milvus (分布式), Qdrant (单节点/小型集群), Pinecone (托管)
存储后端MinIO / S3 (段存储), SSD (温层), RAM (热层)
协调服务etcd (Milvus 元数据), Pulsar/Kafka (预写日志)
嵌入模型OpenAI text-embedding-3-large, Cohere embed-v4, BGE-M3, E5-large-v2
基础设施Kubernetes (EKS/GKE),带 GPU 节点用于嵌入,内存优化节点用于查询
监控Grafana + Milvus metrics exporter, 自定义 P99/召回率仪表板

使用场景 / 避免场景

使用场景避免场景
向量数量超过 500 万且持续增长,需要横向扩展您的向量数量 < 100 万——现有 PostgreSQL 上的 pgvector 已足够
低于 100 毫秒的 P99 查询延迟是硬性要求查询延迟 500 毫秒以上可接受——更简单的方案即可
多个应用/租户共享向量基础设施单个应用使用单个集合——请使用托管服务
成本优化需要分层存储(并非所有数据都驻留在 RAM 中)预算允许完全托管服务,且供应商定价适合您的规模

我们的方法

MW 在设计向量数据库基础设施时,采用“从第一天起就恰当规划,根据测量结果进行扩展”的方法。我们从基于向量数量、维度、索引类型和目标延迟进行容量规划,而非凭空猜测。我们在 Kubernetes 上的 Milvus 部署包含 Grafana 仪表板,用于跟踪段计数、内存利用率、查询延迟百分位数和召回率估计。我们已实施自动伸缩的 Milvus 集群,能够在工作时间处理 10 倍的流量峰值,并在夜间缩容,与静态配置相比,基础设施成本降低了 40-60%。

相关蓝图

  • AI 客户支持代理 — 向量搜索为支持响应提供知识检索能力
  • AI 文档处理流水线 — 嵌入和索引提取的文档内容
  • AI 驱动的个性化学习平台 — 向量相似性用于内容推荐

相关案例研究

  • Milvus 自动伸缩 — 带有 Kubernetes HPA 和 S3 分层存储的生产级 Milvus 集群
  • 文档智能 — 用于本地文档检索和分析的向量搜索
Related Technologies
AI 开发云解决方案
AI / Data

AI/ML 管道架构

模型无法自行运行。训练、验证、部署和监控模型的管道才是实际产品——模型只是其中一个产物。

EnterpriseView
multi-tenant-saas-architecture.webp
Application

多租户 SaaS 架构

一个代码库,数百个租户,零数据泄露——每个可扩展 SaaS 业务的基础。

AdvancedView