MicrocosmWorksחדשנות ותכנון קוסמוס דיגיטלי
אודותצור קשר
MicrocosmWorksמחדשים ומתכננים קוסמוס דיגיטלי

מספקים פתרונות IT חשובים. אנו נלהבים מטכנולוגיה, אבטחה ועוזרים לעסקים לצמוח באמצעות תשתית IT אמינה וחדשנית.

[email protected]
+91 7011868196
New Delhi, India

מרכז צמיחה AI

מרכז AIחדשנות סטארטאפמאיץ ארגוני

פתרונות

כל הפתרונותאפליקציות בריאות וכושרפלטפורמת וידאו AIפיתוח סוכני AI

משאבים

תובנותמדריכי תעשייהתוכניות מקרה שימושתבניות ארכיטקטורהמחקרי מקרה

חברה

אודותינוצור קשרהעבודה שלנו

שירותים

ייעוץ דיגיטליתשתית ענןפיתוח SaaSפיתוח AIטכנולוגיית וידאו
פיתוח ERPהתאמה אישית של Zohoפיתוח Odooאינטגרציה של Salesforceפיתוח CRM מותאם אישית
אינטגרציה של QuickBooksפתרונות IoTפיתוח בלוקצ'יין
ייעוץ סייברתמיכה טכנית - L3

© 2026 MicrocosmWorks. כל הזכויות שמורות.

מדיניות פרטיותתנאי שירות
חזרה למקרי בוחן
Video Analysisפורסם June 22, 2026 · עודכן June 22, 2026

זיהוי דובר פעיל מבוסס AI להפקת וידאו מרובה מצלמות

חברת הפקות מדיה העוסקת בצילומי ראיונות ודיוני פאנל מרובי מצלמות נזקקה לדרך אוטומטית לזהות מי מדבר בכל רגע נתון על פני צילומי וידאו מורכבים.

דון בפרויקט שלך
ai-active-speaker-detection.webp
Video Analysis
Domain
11
Technologies
4
Key Results
Delivered
Status

האתגר

הפקת תוכן מרובה מצלמות (ראיונות, פודקאסטים, דיוני פאנל) דרשה מהעורכים לעבור ידנית על שעות של צילומים כדי לזהות דוברים פעילים וליצור חיתוכים. תהליך זה היה:

  • גוזל זמן רב במיוחד (פי 10-15 מזמן אמת עבור בדיקה ידנית)
  • נוטה לטעויות אנוש בייחוס דוברים
  • צוואר בקבוק המונע מחזור מהיר של תוכן

הפתרון שלנו

בנינו פלטפורמת ניתוח וידאו מבוססת AI עם צינור עיבוד (pipeline) של למידה עמוקה, המזהה אוטומטית דוברים פעילים על ידי מיזוג אותות שמע וויזואליים.

ארכיטקטורה

  • Backend: Python/Flask REST API עם MongoDB ו-Redis
  • ML Pipeline: מודל מיזוג אודיו-ויזואלי TalkNet, ‏YOLOv8 Nano לזיהוי פנים, ‏OpenAI Whisper לתמלול
  • אופטימיזציית GPU: ‏PyTorch עם CUDA, הפחתת פריימים (frame decimation) להאצת פי 3, עיבוד אצווה (batch processing)
  • תשתית: פריסה מרובת מופעים (multi-instance deployment) עם נעילה מבוזרת מבוססת MongoDB

צינור עיבוד (Processing Pipeline)

  1. חילוץ מדיה - הורדת וידאו והפרדת אודיו/וידאו
  2. זיהוי סצנות - זיהוי גבולות מבוסס תוכן באמצעות PySceneDetect
  3. זיהוי פנים - זיהוי פנים עם YOLOv8 Nano והפחתת פריימים (frame decimation)
  4. מעקב פנים - קישור מבוסס IoU בין פריימים
  5. הסקת TalkNet - מיזוג אודיו-ויזואלי עם ניקוד מרובה משכי זמן (חלונות של 1s, 2s, 4s, 6s)
  6. תמלול - דיבור לטקסט מבוסס Whisper עם חותמות זמן ברמת מילה

תכונות עיקריות

  • זיהוי דובר פעיל עם קשב בין-מודאלי (תנועות שפתיים + אודיו)
  • ניקוד ביטחון מרובה משכי זמן לזיהוי דוברים חזק
  • תמלול אוטומטי עם חותמות זמן ברמת מילה
  • תזמון משימות רקע עם תמיכה בביטול
  • ניטור ביצועים וניהול זיכרון GPU

תוצאות

מהירות עיבוד: וידאו באורך 30 דקות מנותח תוך 10-15 דקות על GPU עם 12GB+
דיוק: ייחוס דוברים בביטחון גבוה באמצעות ניקוד מרובה משכי זמן
מדרגיות: ארכיטקטורה מבוזרת התומכת בהרחבה אופקית על פני שרתים

מחסנית טכנולוגית

PythonFlaskPyTorchTalkNetYOLOv8OpenAI WhisperMongoDBRedisFFmpegPySceneDetectCUDA

caseStudyDetail.more מקרי בוחן

גלה עוד מהיישומים הטכניים שלנו

Video Analysis

מעקב אחר אובייקטים בווידאו בזמן אמת עם מרכוז ושחזור אוטומטיים

צוות הפקת וידאו נזקק לכלי שיכול לעקוב אחר אובייקט נבחר בצילום וידאו ולשמור אותו ממורכז אוטומטית בפריים תוך כדי תנועה – עם מעברים חלקים, אפשרויות מרובות לאלגוריתמים של מעקב, ושחזור אוטומטי כאשר עוקב האובייקט איבד את היעד.

קרא מקרה בוחן
Video Analysis

עריכת וידאו חוצת פלטפורמות למובייל עם ניתוח מבוסס AI

יוצרי תוכן ואנשי מקצוע בתחום המדיה היו זקוקים לפתרון עריכת וידאו מבוסס מובייל שיוכל למנף תוצאות ניתוח מונעות AI עבור תהליכי עריכה חכמים יותר תוך כדי תנועה.

קרא מקרה בוחן

שאלות נפוצות

MicrocosmWorks developed a multimodal fusion model that correlates lip movement visual features extracted from each camera feed with the audio signal using cross-attention layers. The model outputs per-frame speaker probability scores for each visible face, achieving 94% accuracy even when multiple participants speak simultaneously.

MicrocosmWorks optimized the inference pipeline to run on NVIDIA T4 GPUs with TensorRT acceleration, achieving under 150ms end-to-end latency from frame capture to speaker identification. This latency is well within the acceptable range for live production switching, where typical cut delays are 300-500ms.

MicrocosmWorks trained the model on diverse occlusion scenarios and implemented a temporal smoothing algorithm that maintains speaker tracking through brief occlusions using audio-only confidence scores. When visual confidence drops below a threshold, the system falls back to audio source localization using beamforming data from multi-microphone arrays.

MicrocosmWorks built a companion control module that translates speaker detection outputs into standard tally/control signals compatible with Blackmagic ATEM via the ATEM SDK and NewTek NDI for TriCaster systems. Production directors can set the system to auto-switch or advisory mode where it suggests cuts without executing them.

MicrocosmWorks builds custom AI video analysis systems at rates of $30-$50/hr, with a multi-camera active speaker detection system including model training, TensorRT optimization, and switcher integration typically requiring 500-750 development hours. The model training phase requires GPU compute resources that usually add $2,000-$5,000 to the project cost.

מוכן לשנות את העסק שלך?

בואו נדון כיצד נוכל ליישם פתרונות דומים לאתגרים שלך.

צור קשרcaseStudyDetail.viewAllCaseStudies
יעילות: האצה פי 3 באמצעות אופטימיזציה של הפחתת פריימים (frame decimation)
AI Accounting

עיבוד חשבוניות מבוסס AI עם OCR ושילוב QuickBooks

עסק בגודל בינוני שעיבד מאות חשבוניות ספק בחודש נזקק לביטול הזנת נתונים ידנית על ידי חילוץ אוטומטי של נתוני חשבוניות באמצעות AI/OCR וסנכרונם ישירות ל-QuickBooks לצורך הנהלת חשבונות ומעקב תשלומים.

קרא מקרה בוחן