Video Analysisפורסם June 22, 2026 · עודכן June 22, 2026

זיהוי דובר פעיל מבוסס AI להפקת וידאו מרובה מצלמות

חברת הפקות מדיה העוסקת בצילומי ראיונות ודיוני פאנל מרובי מצלמות נזקקה לדרך אוטומטית לזהות מי מדבר בכל רגע נתון על פני צילומי וידאו מורכבים.

דון בפרויקט שלך

Video Analysis

Domain

Technologies

Key Results

Delivered

Status

האתגר

הפקת תוכן מרובה מצלמות (ראיונות, פודקאסטים, דיוני פאנל) דרשה מהעורכים לעבור ידנית על שעות של צילומים כדי לזהות דוברים פעילים וליצור חיתוכים. תהליך זה היה:

גוזל זמן רב במיוחד (פי 10-15 מזמן אמת עבור בדיקה ידנית)
נוטה לטעויות אנוש בייחוס דוברים
צוואר בקבוק המונע מחזור מהיר של תוכן

הפתרון שלנו

בנינו פלטפורמת ניתוח וידאו מבוססת AI עם צינור עיבוד (pipeline) של למידה עמוקה, המזהה אוטומטית דוברים פעילים על ידי מיזוג אותות שמע וויזואליים.

ארכיטקטורה

Backend: Python/Flask REST API עם MongoDB ו-Redis
ML Pipeline: מודל מיזוג אודיו-ויזואלי TalkNet, ‏YOLOv8 Nano לזיהוי פנים, ‏OpenAI Whisper לתמלול
אופטימיזציית GPU: ‏PyTorch עם CUDA, הפחתת פריימים (frame decimation) להאצת פי 3, עיבוד אצווה (batch processing)
תשתית: פריסה מרובת מופעים (multi-instance deployment) עם נעילה מבוזרת מבוססת MongoDB

צינור עיבוד (Processing Pipeline)

חילוץ מדיה - הורדת וידאו והפרדת אודיו/וידאו
זיהוי סצנות - זיהוי גבולות מבוסס תוכן באמצעות PySceneDetect
זיהוי פנים - זיהוי פנים עם YOLOv8 Nano והפחתת פריימים (frame decimation)
מעקב פנים - קישור מבוסס IoU בין פריימים
הסקת TalkNet - מיזוג אודיו-ויזואלי עם ניקוד מרובה משכי זמן (חלונות של 1s, 2s, 4s, 6s)
תמלול - דיבור לטקסט מבוסס Whisper עם חותמות זמן ברמת מילה

תכונות עיקריות

זיהוי דובר פעיל עם קשב בין-מודאלי (תנועות שפתיים + אודיו)
ניקוד ביטחון מרובה משכי זמן לזיהוי דוברים חזק
תמלול אוטומטי עם חותמות זמן ברמת מילה
תזמון משימות רקע עם תמיכה בביטול
ניטור ביצועים וניהול זיכרון GPU

תוצאות

מהירות עיבוד: וידאו באורך 30 דקות מנותח תוך 10-15 דקות על GPU עם 12GB+

דיוק: ייחוס דוברים בביטחון גבוה באמצעות ניקוד מרובה משכי זמן

מדרגיות: ארכיטקטורה מבוזרת התומכת בהרחבה אופקית על פני שרתים

מחסנית טכנולוגית

PythonFlaskPyTorchTalkNetYOLOv8OpenAI WhisperMongoDBRedisFFmpegPySceneDetectCUDA

caseStudyDetail.more מקרי בוחן

גלה עוד מהיישומים הטכניים שלנו

Video Analysis

מעקב אחר אובייקטים בווידאו בזמן אמת עם מרכוז ושחזור אוטומטיים

צוות הפקת וידאו נזקק לכלי שיכול לעקוב אחר אובייקט נבחר בצילום וידאו ולשמור אותו ממורכז אוטומטית בפריים תוך כדי תנועה – עם מעברים חלקים, אפשרויות מרובות לאלגוריתמים של מעקב, ושחזור אוטומטי כאשר עוקב האובייקט איבד את היעד.

קרא מקרה בוחן

Video Analysis

עריכת וידאו חוצת פלטפורמות למובייל עם ניתוח מבוסס AI

יוצרי תוכן ואנשי מקצוע בתחום המדיה היו זקוקים לפתרון עריכת וידאו מבוסס מובייל שיוכל למנף תוצאות ניתוח מונעות AI עבור תהליכי עריכה חכמים יותר תוך כדי תנועה.

קרא מקרה בוחן

שאלות נפוצות

MicrocosmWorks פיתחה מודל איחוי רב-מודאלי שמקשר תכונות חזותיות של תנועת שפתיים שחולצו מכל פיד מצלמה עם אות השמע, באמצעות שכבות cross-attention. המודל מפיק ציוני הסתברות דובר לכל פריים עבור כל פנים גלויות, ומגיע לדיוק של 94% גם כאשר מספר משתתפים מדברים בו-זמנית.

MicrocosmWorks ביצעה אופטימיזציה ל-inference pipeline כדי לרוץ על מעבדי NVIDIA T4 GPU עם האצת TensorRT, והשיגה השהייה מקצה לקצה של פחות מ-150ms מלכידת פריים ועד זיהוי דובר. השהייה זו נמצאת היטב בטווח הקביל עבור מיתוג הפקה חיה, כאשר עיכובי חיתוך אופייניים הם 300-500ms.

חברת MicrocosmWorks אימנה את המודל על מגוון תרחישי חסימה ויישמה אלגוריתם החלקה זמנית ששומר על מעקב אחר הדובר במהלך חסימות קצרות באמצעות ציוני ביטחון מבוססי אודיו בלבד. כאשר הביטחון החזותי יורד מתחת לסף, המערכת חוזרת ללוקליזציית מקור אודיו באמצעות נתוני beamforming ממערכי מיקרופונים מרובים.

MicrocosmWorks בנתה מודול בקרה נלווה שמתרגם תפוקות זיהוי דובר לאותות Tally/בקרה סטנדרטיים תואמים ל-Blackmagic ATEM באמצעות ה-ATEM SDK ו-NewTek NDI עבור מערכות TriCaster. במאי הפקה יכולים להגדיר את המערכת למצב החלפה אוטומטית או למצב ייעוץ שבו היא מציעה חיתוכים מבלי לבצע אותם.

MicrocosmWorks בונה מערכות ניתוח וידאו מותאמות אישית מבוססות AI בתעריפים של 30-50 דולר לשעה, כאשר מערכת זיהוי דובר פעיל מרובת מצלמות, הכוללת אימון מודל, אופטימיזציית TensorRT ואינטגרציית switcher, דורשת בדרך כלל 500-750 שעות פיתוח. שלב אימון המודל דורש משאבי חישוב GPU שבדרך כלל מוסיפים 2,000-5,000 דולר לעלות הפרויקט.

מוכן לשנות את העסק שלך?

בואו נדון כיצד נוכל ליישם פתרונות דומים לאתגרים שלך.

צור קשר caseStudyDetail.viewAllCaseStudies

זיהוי דובר פעיל מבוסס AI להפקת וידאו מרובה מצלמות

האתגר

הפתרון שלנו

ארכיטקטורה

צינור עיבוד (Processing Pipeline)

תכונות עיקריות

תוצאות

מחסנית טכנולוגית

caseStudyDetail.more מקרי בוחן

מעקב אחר אובייקטים בווידאו בזמן אמת עם מרכוז ושחזור אוטומטיים

עריכת וידאו חוצת פלטפורמות למובייל עם ניתוח מבוסס AI

שאלות נפוצות

מוכן לשנות את העסק שלך?

עיבוד חשבוניות מבוסס AI עם OCR ושילוב QuickBooks