MicrocosmWorksחדשנות ותכנון קוסמוס דיגיטלי
אודותצור קשר
MicrocosmWorksמחדשים ומתכננים קוסמוס דיגיטלי

מספקים פתרונות IT חשובים. אנו נלהבים מטכנולוגיה, אבטחה ועוזרים לעסקים לצמוח באמצעות תשתית IT אמינה וחדשנית.

[email protected]
+91 7011868196
New Delhi, India

מרכז צמיחה AI

מרכז AIחדשנות סטארטאפמאיץ ארגוני

פתרונות

כל הפתרונותאפליקציות בריאות וכושרפלטפורמת וידאו AIפיתוח סוכני AI

משאבים

תובנותמדריכי תעשייהתוכניות מקרה שימושתבניות ארכיטקטורהמחקרי מקרה

חברה

אודותינוצור קשרהעבודה שלנו

שירותים

ייעוץ דיגיטליתשתית ענןפיתוח SaaSפיתוח AIטכנולוגיית וידאו
פיתוח ERPהתאמה אישית של Zohoפיתוח Odooאינטגרציה של Salesforceפיתוח CRM מותאם אישית
אינטגרציה של QuickBooksפתרונות IoTפיתוח בלוקצ'יין
ייעוץ סייברתמיכה טכנית - L3

© 2026 MicrocosmWorks. כל הזכויות שמורות.

מדיניות פרטיותתנאי שירות
חזרה לתבניות ארכיטקטורה
InfrastructureAdvanced

ארכיטקטורת סקיילינג On-Off

אל תשלמו על GPUs לא פעילים. ספקו משאבי מחשוב בדיוק בזמן, עבדו את העומס, ופרקו אותו — הופכים הוצאה הונית לעלות תפעולית לכל משימה.

June 22, 2026
|
2 topics covered
דיון בארכיטקטורה זו
on-off-scaling-architecture.webp
Infrastructure
Category
Advanced
Complexity
AI/ML, מדיה ובידור
Industries
2+
Technologies

מתי אתם צריכים את זה

עומס העבודה שלכם מתאפיין בפרצים — משימות קידוד וידאו שקופצות כשתוכן מועלה, ריצות אימון ML שדורשות 8 GPUs למשך 4 שעות ואז כלום, משימות הסקת אצווה המופעלות על ידי אירועים עסקיים, או צינורות רינדור שרצים במהלך הלילה. אתם נמצאים במצב של הקצאת יתר (משלמים על משאבים לא פעילים 80% מהזמן) או הקצאת חסר (משימות ממתינות בתור שעות במהלך שיאים). אתם זקוקים לארכיטקטורה שמספקת בדיוק את משאבי המחשוב שאתם צריכים, כשאתם צריכים אותם, ומשחררת אותם כשהמשימה מסתיימת — ללא קנס ה-cold-start שהופך את "scale to zero" ללא מעשי עבור עומסי עבודה של GPU.

Related Architecture Patterns

Explore more design patterns and system architectures

cloud-native-infrastructure.webp
Infrastructure

תשתית Cloud-Native

תשתית שמנוהלת בגרסאות, נבדקת ונפרסת כמו קוד יישום — כי הפלטפורמה שלך אמינה רק כמו מה שנמצא מתחתיה.

EnterpriseView
security-first-architecture.webp

האם אתה זקוק לעזרה בהטמעת ארכיטקטורה זו?

אדריכלים שלנו יכולים לעזור לך לעצב ולבנות מערכות תוך שימוש בדפוס זה לדרישות הספציפיות שלך.

צרו קשר

סקירת תבנית

ארכיטקטורת סקיילינג On-Off מנהלת משאבי מחשוב באמצעות מאגר חם/קר (warm/cold pooling), הקצאה מונחית-תור משימות, ופירוק אוטומטי. מאגר חם (warm pool) שומר על מספר קטן של מופעים מאותחלים מראש ומוכנים לשימוש מיידי. מאגר קר (cold pool) מקצה קיבולת נוספת ממופעי spot/preemptible כאשר הביקוש עולה על המאגר החם. מתאם משימות (job orchestrator) מנתב עבודה למופעים זמינים, מנטר התקדמות, מטפל בניסיונות חוזרים בעת פינוי spot, ומפעיל scale-down כאשר התור מתרוקן. התבנית קריטית במיוחד עבור עומסי עבודה של GPU שבהם אתחול קר (משיכת קונטיינר + טעינת מודל) יכול לארוך 3-10 דקות.

ארכיטקטורת ייחוס

המערכת מתרכזת סביב תור משימות (job queue) (SQS, Redis, או מותאם אישית) החוצץ בקשות עבודה נכנסות. בקר סקיילינג (scaling controller) מנטר את עומק התור ומקצה מופעים מהמאגר החם תחילה, ולאחר מכן מהמאגר הקר (מופעי spot). כל מופע עובד (worker instance) מושך משימות מהתור, מבצע את עומס העבודה (קידוד, אימון, הסקה), מדווח על השלמה, וחוזר למאגר או מסיים פעולה. מנהל נקודות ביקורת (checkpoint manager) מטפל בפינוי spot על ידי שמירת מצב ביניים ל-S3, ומאפשר למשימות להתחדש במופע אחר מבלי להתחיל מחדש.

רכיבי ליבה
  • תור משימות ומתזמן (Job Queue & Scheduler): תור משימות עם עדיפויות ומגבלות מקביליות הניתנות להגדרה לכל סוג משימה. תומך בביצוע מושהה, תורי dead-letter למשימות שנכשלו, ונתיבי עדיפות (משימות אקספרס מקבלות מופעי מאגר חם, משימות סטנדרטיות משתמשות במאגר קר). AWS SQS, BullMQ על Redis, או Temporal עבור תהליכי עבודה מורכבים
  • מנהל מאגר חם (Warm Pool Manager): שומר על N מופעים מאותחלים מראש עם מודלים טעונים בזיכרון ה-GPU, קונטיינרים רצים, ובדיקות תקינות עוברות. מופעים עוברים מחזור: לא פעיל ← הוקצה ← מעבד ← לא פעיל. גודל המאגר ניתן להגדרה לפי שעת היום (גדול יותר בשעות העבודה, קטן יותר בשעות הלילה) וניתן להתאמה על בסיס דפוסי ביקוש היסטוריים
  • ספק מאגר קר (Cold Pool Provisioner): מקצה קיבולת נוספת ממופעי spot (AWS), VMs preemptible (GCP), או ספקי GPU serverless (RunPod, Modal, Salad). מטפל בהתראות על הפרעת spot על ידי העברת משימות למופעים זמינים. משתמש באסטרטגיית סוגי מופעים מגוונת (מספר סוגי GPU, מספר AZs) כדי למקסם את זמינות ה-spot
  • נקודות ביקורת ושחזור (Checkpoint & Recovery): עבור משימות ארוכות טווח (אימון ML, קידוד וידאו גדול), שמירת נקודות ביקורת תקופתית שומרת מצב ביניים ל-S3. עם פינוי spot, המשימה מוחזרת לתור ומתחדשת מנקודת הביקורת האחרונה. עבור משימות קצרות (< 10 דקות), עלות שמירת נקודות הביקורת עולה על עלות ההפעלה מחדש — משימות אלו פשוט מנסות שוב מההתחלה

החלטות עיצוב ופשרות

גודל המאגר החם
המאגר החם הוא פשרה בין עלות (תשלום על מופעים לא פעילים) לבין חביון (זמן אתחול קר למשימה הראשונה). MW מתאימה את גודל המאגרים החמים בהתבסס על דפוסי הגעה לתור: אם משימות מגיעות ברציפות בשעות העבודה, המאגר החם מכסה את התפוקה הממוצעת; המאגר הקר מכסה את השיאים. אם משימות מגיעות בפרצים בלתי צפויים, אנו שומרים על מאגר חם קטן יותר ומקבלים חביון אתחול קר עבור משימות הפרץ הראשונות בזמן שהמאגר הקר מקצה משאבים.
מופעי Spot לעומת GPU Serverless (RunPod/Modal)
מופעי Spot זולים יותר לשעה אך דורשים מכם לנהל את ההקצאה, הטיפול בפינוי ומחזור חיי המופע. ספקי GPU Serverless (RunPod Serverless, Modal, Banana) מטפלים בהקצאה ומציעים חיוב לפי שנייה, אך בתעריף גבוה יותר לשניית מחשוב. MW משתמשת במופעי Spot עבור עומסי עבודה ארוכי טווח וצפויים (>30 דקות) ו-GPU Serverless עבור משימות קצרות ופרציות (<10 דקות) שבהן תקורה ההקצאה הייתה שולטת.
אגרסיביות ירידה בקנה מידה
ירידה מהירה מדי בקנה מידה ואתם משלמים קנסות אתחול קר כשהמשימה הבאה מגיעה. ירידה איטית מדי ואתם משלמים על מופעים לא פעילים. MW מיישמת אסטרטגיית "התקררות עם דעיכה" (cooldown with decay): לאחר שהתור מתרוקן, מופעים נשארים חמים למשך תקופה הניתנת להגדרה (ברירת מחדל: 10 דקות). אם לא מגיעות משימות חדשות, המופעים יורדים בקנה מידה באופן הדרגתי (50% לאחר 10 דקות, היתרה לאחר 30 דקות). תקופת ההתקררות ניתנת לכוונון ומתאימה את עצמה אוטומטית בהתבסס על סטטיסטיקות זמני הגעה בין משימות.
אופטימיזציית טעינת מודלי GPU
עבור הסקת ML, צוואר הבקבוק של האתחול הקר הוא לעיתים קרובות טעינת המודל (הורדה מ-S3 + טעינה לזיכרון ה-GPU), ולא הפעלת הקונטיינר. MW מייעלת זאת באמצעות: (א) אפיית מודלים מראש לתוך תמונות קונטיינר (עבור מודלים קטנים), (ב) שימוש באחסון NVMe משותף על פני מופעים עם שמירת מודלים במטמון (עבור מודלים גדולים), ו-(ג) שמירת מופעי מאגר חם עם מודלים טעונים מראש בזיכרון ה-GPU.

בחירות טכנולוגיות

שכבהטכנולוגיות
מחשובAWS EC2 Spot (G5/P4), GCP Preemptible (A2/L4), RunPod Serverless, Modal
תיאוםKubernetes (Karpenter for autoscaling), AWS Batch, custom job orchestrator
תור משימותAWS SQS, BullMQ (Redis), Temporal, Celery
אחסוןS3 (checkpoints, model artifacts), NVMe (model cache), EFS (shared workspace)
ניטורCloudWatch/Prometheus (queue depth, instance utilization, job latency), custom cost dashboards

מתי להשתמש / מתי להימנע

השתמשו כאשרהימנעו כאשר
עומס העבודה פרצי — ביקוש שיא הוא פי 5+ מהביקוש הממוצעהתעבורה יציבה וצפויה — מופעים שמורים בגודל נכון זולים יותר
משימות GPU/מחשוב עתיר משאבים שהן יקרות כשהן לא פעילותעומס העבודה הוא עיבוד CPU קל משקל שמתאים ל-serverless (Lambda)
משימות יכולות לסבול cold start של 1-5 דקות עבור הקצאת מאגר קרנדרש חביון הפעלת משימה בתת-שנייה — אתם צריכים תשתית תמיד פעילה
אופטימיזציית עלויות היא דאגה מרכזית ותמחור spot מציע חיסכון של 60-90%הפרעת spot תגרום לאובדן נתונים ששמירת נקודות ביקורת לא יכולה למנוע

הגישה שלנו

MW מתכננת סקיילינג On-Off דרך עדשת "עלות למשימה" — אנו ממדלים את העלות הכוללת של עיבוד יחידת עבודה אחת (וידאו אחד, ריצת אימון אחת, הסקת אצווה אחת) על פני אסטרטגיות סקיילינג שונות ובוחרים בזו שממזערת עלויות בחביון ה-SLA הנדרש. היישומים שלנו כוללים לוחות מחוונים של עלויות בזמן אמת המציגים עלות למשימה, ניצול תשתית וחיסכון ב-spot. בנינו תשתית GPU ב-On-Off שהפחיתה את עלויות עיבוד הווידאו ב-70% בהשוואה למופעים שמורים, ואשכולות אימון ML שמקצים 64 GPUs לריצת אימון של 4 שעות ומשחררים אותם אוטומטית.

שרטוטים קשורים

  • תיאום אשכולות GPU עבור עומסי עבודה של AI — הקצאת GPU ותיאום עבור אימון ML
  • מערכת מעקב וידאו AI בזמן אמת — הסקת פרצים לאירועי ניתוח וידאו
  • מחולל רגעי שיא של ספורט חי — עיבוד וידאו מונחה אירועים עם מחשוב פרצים

מקרי בוחן קשורים

  • עיבוד וידאו בתבנית On-Off — הקצאת GPU עם מאגרים חמים/קרים עבור עומסי עבודה של קידוד וידאו
  • פלטפורמת קידוד וידאו — קידוד Serverless מבוסס spot עם מאגרי עובדים בהתאמה אוטומטית
Related Technologies
פתרונות ענןפיתוח AI
Infrastructure

ארכיטקטורה המעניקה עדיפות לאבטחה

אבטחה אינה תכונה שמוסיפים לאחר ההשקה. זוהי תכונה ארכיטקטונית – המערכת תוכננה עבורה, או שלא.

EnterpriseView
serverless-first-architecture.webp
Infrastructure

ארכיטקטורה ממוקדת Serverless

שלם רק על מה שאתה משתמש, סקייל לאפס כשאינך משתמש, והפסק לנהל שרתים לחלוטין — אך דע מתי הכלכלה מפסיקה להיות כדאית.

AdvancedView

שאלות נפוצות

לקוחות MicrocosmWorks עם batch-heavy או periodic workloads רואים בדרך כלל הפחתה של 60-80% בעלויות ה-cloud לאחר הטמעת on-off scaling, מכיוון ש-compute resources פועלים רק במהלך active processing windows במקום 24/7. אנו מתכננים scaling policies המבוססות על actual usage telemetry – לדוגמה, data processing pipeline שרץ 4 שעות ביום משלם רק עבור 4 השעות הללו במקום 24 השעות המלאות. הארכיטקטים שלנו מנתחים את ה-workload patterns שלכם במהלך discovery phase כדי להעריך חיסכון מדויק לפני שמתחילה הטמעה כלשהי.

זמני אתחול קר נעים בין 2-3 שניות עבור יישומים מבוססי קונטיינרים במאגרי node pools מחוממים מראש, ועד 5-10 דקות עבור עומסי עבודה הדורשים מופעי GPU מיוחדים או טעינת מודלים גדולים, ו-MicrocosmWorks משתמשת במספר טכניקות כדי למזער עיכוב זה. אנו מיישמים מדרגיות חזויה המפעילה משאבים לפני ביקוש צפוי באמצעות דפוסי תעבורה היסטוריים ואירועים מתוזמנים, ואנו משתמשים ב-container image pre-pulling וב-warm pool reservations עבור עומסי עבודה הרגישים ל-latency. עבור יישומים שאינם יכולים לסבול כל אתחול קר, אנו שומרים על warm baseline מינימלי שמתרחב באגרסיביות כאשר מגיע ביקוש.

MicrocosmWorks מיישמת קנה מידה אוטומטי (auto-scaling) ריאקטיבי עם מדיניות הגדלת קנה מידה (scale-up) אגרסיבית המופעלת על ידי עומק תור, ניצולת CPU, או מדדי יישום מותאמים אישית, בשילוב עם מדיניות הפחתת קנה מידה (scale-down) הדרגתית יותר הכוללת תקופות צינון כדי למנוע קריסה. אנו מגדירים מאגרי הקצאת יתר (over-provisioning) במהלך אירועי הגדלת קנה מידה, כך שהמערכת צופה צמיחה מתמשכת במקום לרדוף אחר הביקוש מופע אחד בכל פעם. עבור עליות בלתי צפויות באמת כמו מבצעי בזק (flash sales) או אירועים ויראליים, אנו מקצים קיבולת מראש (pre-provision) באמצעות טריגרים מונעי אירועים מלוח השיווק או התפעול שלכם.

MicrocosmWorks מיישמת on-off scaling על מסדי נתונים באמצעות הצעות של מסדי נתונים serverless כמו Aurora Serverless, Neon, או PlanetScale, המאפשרות להוריד את ה-compute לאפס בתקופות סרק, תוך שמירה על אחסון עמיד וזמין באופן מיידי. עבור עומסי עבודה stateful שאינם יכולים להשתמש במסדי נתונים serverless, אנו מיישמים read-replica scaling שמוסיפה ומסירה replicas בהתאם לעומס השאילתות, תוך שמירה על primary instance מינימלי הפועל תמיד. גישה היברידית זו מעניקה ללקוחות את יתרונות העלות של scaling עבור שכבת הנתונים שלהם, ללא המורכבות של ניהול מצב מסד הנתונים במהלך מחזורי כיבוי והפעלה מחדש.

MicrocosmWorks פורסת יכולות תצפית (observability) מקיפות לסקיילינג, העוקבות אחר מספר המופעים (instance counts), השהיית אירועי סקיילינג (scaling event latency), ניסיונות סקיילינג כושלים, והפער בין הקיבולת הרצויה לקיבולת בפועל בזמן אמת באמצעות דאשבורדים של Grafana או Datadog. אנו מגדירים התראות רב-ערוציות עבור כשלים בסקיילינג, ניצול גבוה מתמשך המעיד על כך שתקרת הסקיילינג נמוכה מדי, וחריגות עלות המצביעות על סקיילינג בלתי מבוקר (runaway scaling). ה-runbooks שלנו כוללים תיקון אוטומטי למצבי כשל נפוצים, כמו הגעה למגבלות מופעים (instance limits) של cloud provider או נתקלים בשגיאות של קיבולת לא מספקת באזורי זמינות (availability zones) ספציפיים.