Question 1

באיזה היקף נתונים הופך מסד נתונים וקטורי ייעודי לנחוץ במקום להשתמש ב-pgvector ב-PostgreSQL?

Accepted Answer

MicrocosmWorks ממליצה בדרך כלל על pgvector לפרויקטים עם פחות מ-5-10 מיליון וקטורים שבהם הצוות כבר משתמש ב-PostgreSQL, מכיוון שהדבר מונע הכנסת רכיב תשתית חדש ותומך בשאילתות היברידיות של SQL-plus-vector באופן מובנה. מעבר ל-10 מיליון וקטורים או כאשר נדרש זמן אחזור (latency) של פחות מ-50 מילישניות (p99) בעומס גבוה (high concurrency), מסד נתונים וקטורי ייעודי כמו Qdrant, Weaviate או Milvus מספק ביצועים טובים משמעותית באמצעות אלגוריתמי אינדוקס ממוטבים וחיפוש מואץ על ידי GPU. אנו עוזרים ללקוחות לקבל החלטה זו במהלך סקירת ארכיטקטורה (architecture review) על ידי ביצוע בדיקות ביצועים (benchmarking) של דפוסי השאילתות בפועל ותחזיות הצמיחה שלהם.

Question 2

כיצד אתם מטפלים בשארדינג של מאגר וקטורי כאשר קבוצת הנתונים גדלה מעבר למה שצומת יחיד יכול לשרת?

Accepted Answer

MicrocosmWorks מתכננת אשכולות מאגרי וקטורים עם אסטרטגיות שארדינג מבוססות גיבוב או מבוססות מטא-דאטה, המפזרות וקטורים על פני צמתים תוך שמירה על נתונים קשורים סמנטית ממוקמים יחד לצורך חיפוש יעיל. אנו מיישמים שכבות ניתוב שאילתות המפזרות בקשות חיפוש לשארדים רלוונטיים ומאחדות תוצאות באמצעות אגרגציית top-K גלובלית, שומרות על שיהוי של פחות מ-100 מילישניות אפילו על פני עשרות שארדים. לוחות המחוונים שלנו לניטור עוקבים אחר איזון שארדים, פיזור שאילתות ופיגור שכפול כדי למנוע נקודות חמות ככל שקבוצת הנתונים שלכם גדלה.

Question 3

אילו טכניקות קוונטיזציה יכולות להפחית את עלויות אחסון הווקטורים מבלי לפגוע באופן משמעותי באיכות החיפוש?

Accepted Answer

MicrocosmWorks מיישמת קוונטיזציה סקלרית (המפחיתה float32 ל- int8) וקוונטיזציית מכפלה כדי לדחוס את אחסון הווקטורים פי 4-8, עם פחות מ-2% פגיעה ב-recall בדרך כלל, שאנו מאמתים באמצעות בדיקות A/B על עומס העבודה בפועל של השאילתות שלכם לפני פריסה לייצור. אנו מיישמים גם גישת אחזור דו-שלבית שבה וקטורים מקוונטטים משמשים לאחזור מועמדים ראשוני, וווקטורים בדיוק מלא משמשים רק לדירוג מחדש סופי של התוצאות המובילות. אסטרטגיה היברידית זו מאפשרת ללקוחות לאחסן מאות מיליוני וקטורים בשבריר מהעלות תוך שמירה על איכות חיפוש שאינה ניתנת להבחנה מפעולה לא דחוסה.

Question 4

כיצד MicrocosmWorks מבטיחה זמינות גבוהה עבור מסדי נתונים וקטוריים המשרתים יישומי AI בזמן אמת?

Accepted Answer

MicrocosmWorks פורסת מסדי נתונים וקטוריים בתצורות מרובות רפליקות עם שכפול סינכרוני לעמידות כתיבה ורפליקות קריאה המפוזרות על פני אזורי זמינות לסבילות לתקלות ואיזון עומסים. אנו מגדירים automated failover עם בחירת לידר המונעת על ידי בדיקות תקינות כך שכשל בצומת יגרום לפחות מ-10 שניות של חוסר זמינות לקריאה ואפס אובדן נתונים. תבניות ה-infrastructure-as-code שלנו כוללות לוחות זמנים מוגדרים מראש לגיבויים, point-in-time recovery, ו-disaster recovery runbooks המותאמים אישית לכל מנוע מסד נתונים וקטורי.

Question 5

האם אנו יכולים להשתמש במסד נתונים וקטורי יחיד כדי לשרת יישומי AI מרובים עם embedding models ו-dimensions שונים?

Accepted Answer

MicrocosmWorks מתכננת פריסות של מסדי נתונים וקטוריים מרובי collection שבהן כל יישום או embedding model מקבל collection מבודדת משלו עם index configurations מתאימות, תוך שיתוף תשתית ה-cluster הבסיסית ליעילות עלויות. אנו מיישמים unified query gateway שמנתב בקשות ל-collection הנכונה בהתבסס על הקשר היישום, ומיישם pre-processing ספציפי ל-collection, כגון query embedding עם המודל התואם. גישה זו של multi-tenant vector database מפחיתה בדרך כלל את עלויות התשתית ב-40-60% בהשוואה להפעלת clusters נפרדים לכל יישום.

שכבה	טכנולוגיות
בסיס נתונים וקטורי	Milvus (מבוזר), Qdrant (צומת יחיד/אשכול קטן), Pinecone (מנוהל)
אחסון בקאנד	MinIO / S3 (אחסון קטעים), SSD (שכבה חמה יותר), RAM (שכבה חמה)
תיאום	etcd (מטא-נתונים של Milvus), Pulsar/Kafka (write-ahead log)
מודלי הטמעה	OpenAI text-embedding-3-large, Cohere embed-v4, BGE-M3, E5-large-v2
תשתית	Kubernetes (EKS/GKE) עם צמתי GPU להטמעה, צמתי זיכרון ממוטבים לשאילתות
ניטור	Grafana + Milvus metrics exporter, לוחות מחוונים מותאמים אישית ל-P99/recall

השתמש כאשר	הימנע כאשר
מספר הווקטורים עולה על 5M וגדל, ודורש מדרגיות אופקית	יש לך פחות מ-1M וקטורים — pgvector על PostgreSQL הקיים שלך מספיק
P99 query latency של פחות מ-100ms הוא דרישה קשיחה	latency של שאילתה של 500ms+ מקובל — אפשרויות פשוטות יותר יעבדו
יישומים/דיירים מרובים חולקים את תשתית הווקטורים	יישום יחיד עם אוסף יחיד — השתמש בשירות מנוהל
אופטימיזציית עלויות דורשת אחסון מדורג (לא הכל ב-RAM)	התקציב מאפשר שירותים מנוהלים במלואם והתמחור של הספק מתאים לקנה המידה שלך

ארכיטקטורה של בסיס נתונים וקטורי מדרגי

מתי זה נדרש לך

סקירת התבנית

Related Architecture Patterns

ארכיטקטורת Pipeline של AI/ML

האם אתה זקוק לעזרה בהטמעת ארכיטקטורה זו?

ארכיטקטורת ייחוס

החלטות עיצוב ופשרות

בחירות טכנולוגיות

מתי להשתמש / מתי להימנע

הגישה שלנו

תוכניות קשורות

מקרי בוחן קשורים

ארכיטקטורת RAG Pipeline

תשתית Cloud-Native

שאלות נפוצות