MicrocosmWorksابتكار وتصميم الكون الرقمي
من نحناتصل بنا
MicrocosmWorksابتكار وتصميم الكون الرقمي

نقدم حلول تقنية المعلومات المهمة. نحن شغوفون بالتقنية والأمان ومساعدة الشركات على النمو من خلال بنية تحتية موثوقة ومبتكرة لتقنية المعلومات.

[email protected]
+91 7011868196
New Delhi, India

مركز نمو AI

مركز AIابتكار الشركات الناشئةمسرّع المؤسسات

الحلول

جميع الحلولتطبيقات الصحة واللياقةمنصة فيديو AIتطوير وكلاء AI

الموارد

رؤىأدلة القطاعاتمخططات حالات الاستخدامأنماط المعماريةدراسات الحالة

الشركة

من نحناتصل بناأعمالنا

الخدمات

الاستشارات الرقميةالبنية التحتية السحابيةتطوير SaaSتطوير AIتقنية الفيديو
تطوير ERPتخصيص Zohoتطوير Odooتكامل Salesforceتطوير CRM مخصص
تكامل QuickBooksحلول IoTتطوير بلوكتشين
استشارات الأمن السيبرانيالدعم التقني - L3

© 2026 MicrocosmWorks. جميع الحقوق محفوظة.

سياسة الخصوصيةشروط الخدمة
العودة إلى دراسات الحالة
Video Analysisنُشر في June 22, 2026 · تم التحديث June 22, 2026

كشف المتحدث النشط المدعوم بالذكاء الاصطناعي لإنتاج الفيديو متعدد الكاميرات

كانت شركة إنتاج إعلامي تتعامل مع تصوير المقابلات وحلقات النقاش متعددة الكاميرات بحاجة إلى طريقة مؤتمتة لتحديد من يتحدث في أي لحظة عبر لقطات الفيديو المعقدة.

ناقش مشروعك
ai-active-speaker-detection.webp
Video Analysis
Domain
11
Technologies
4
Key Results
Delivered
Status

التحدي

تطلب إنتاج المحتوى متعدد الكاميرات (المقابلات، البودكاست، حلقات النقاش) من المحررين مراجعة ساعات من اللقطات يدويًا لتحديد المتحدثين النشطين وإنشاء قصات. كانت هذه العملية:

  • تستغرق وقتًا طويلاً للغاية (10-15 ضعف الوقت الفعلي للمراجعة اليدوية)
  • عرضة للخطأ البشري في تحديد هوية المتحدث
  • عنق زجاجة يمنع سرعة تسليم المحتوى

حلنا

قمنا ببناء منصة لتحليل الفيديو مدعومة بـ AI مع مسار عمل للتعلم العميق تكتشف المتحدثين النشطين تلقائيًا عن طريق دمج الإشارات الصوتية والبصرية.

البنية

  • الواجهة الخلفية: Python/Flask REST API مع MongoDB و Redis
  • مسار عمل التعلم الآلي: نموذج TalkNet للدمج السمعي البصري، YOLOv8 Nano لكشف الوجوه، OpenAI Whisper للنسخ
  • تحسين الـ GPU: PyTorch مع CUDA، تقليل الإطارات لتسريع بمقدار 3x، المعالجة الدفعية
  • البنية التحتية: نشر متعدد المثيلات مع قفل موزع قائم على MongoDB

مسار المعالجة

  1. استخراج الوسائط - تنزيل الفيديو وفصل الصوت/الفيديو
  2. كشف المشاهد - كشف الحدود المستند إلى المحتوى عبر PySceneDetect
  3. كشف الوجوه - كشف الوجوه باستخدام YOLOv8 Nano مع تقليل الإطارات
  4. تتبع الوجوه - الربط المستند إلى IoU عبر الإطارات
  5. استدلال TalkNet - دمج سمعي بصري مع تسجيل النقاط متعدد المدة (نوافذ 1 ث، 2 ث، 4 ث، 6 ث)
  6. النسخ - تحويل الكلام إلى نص قائم على Whisper مع طوابع زمنية على مستوى الكلمة

الميزات الرئيسية

  • كشف المتحدث النشط مع الانتباه متعدد الأنماط (حركات الشفاه + الصوت)
  • تسجيل نقاط الثقة متعدد المدة لتحديد هوية المتحدث بشكل قوي
  • النسخ التلقائي مع طوابع زمنية على مستوى الكلمة
  • جدولة المهام في الخلفية مع دعم الإلغاء
  • مراقبة الأداء وإدارة ذاكرة الـ GPU

النتائج

سرعة المعالجة: تحليل فيديو مدته 30 دقيقة في 10-15 دقيقة على GPU بسعة 12GB+
الدقة: تحديد هوية المتحدث بثقة عالية عبر تسجيل النقاط متعدد المدة
قابلية التوسع: بنية موزعة تدعم التوسع الأفقي عبر الخوادم

المكدس التقني

PythonFlaskPyTorchTalkNetYOLOv8OpenAI WhisperMongoDBRedisFFmpegPySceneDetectCUDA

caseStudyDetail.more دراسات الحالة

استكشف المزيد من تطبيقاتنا التقنية

Video Analysis

تتبع الكائنات في الفيديو في الوقت الفعلي مع التوسيط والاستعادة التلقائيين

احتاج فريق إنتاج فيديو إلى أداة يمكنها تتبع كائن محدد في لقطات الفيديو وإبقائه في مركز الإطار تلقائيًا أثناء حركته — مع انتقالات سلسة، وخيارات متعددة لخوارزميات التتبع، واستعادة تلقائية عندما يفقد المتتبع الهدف.

اقرأ دراسة الحالة
Video Analysis

تحرير الفيديو عبر الأنظمة الأساسية للهواتف المحمولة بتحليل مدعوم بالذكاء الاصطناعي

احتاج صناع المحتوى والمتخصصون في وسائل الإعلام إلى حل لتحرير الفيديو يركز على الهاتف المحمول ويمكنه الاستفادة من نتائج التحليل المدعومة بـ AI لسير عمل تحرير أكثر ذكاءً أثناء التنقل.

اقرأ دراسة الحالة

الأسئلة الشائعة

MicrocosmWorks developed a multimodal fusion model that correlates lip movement visual features extracted from each camera feed with the audio signal using cross-attention layers. The model outputs per-frame speaker probability scores for each visible face, achieving 94% accuracy even when multiple participants speak simultaneously.

MicrocosmWorks optimized the inference pipeline to run on NVIDIA T4 GPUs with TensorRT acceleration, achieving under 150ms end-to-end latency from frame capture to speaker identification. This latency is well within the acceptable range for live production switching, where typical cut delays are 300-500ms.

MicrocosmWorks trained the model on diverse occlusion scenarios and implemented a temporal smoothing algorithm that maintains speaker tracking through brief occlusions using audio-only confidence scores. When visual confidence drops below a threshold, the system falls back to audio source localization using beamforming data from multi-microphone arrays.

MicrocosmWorks built a companion control module that translates speaker detection outputs into standard tally/control signals compatible with Blackmagic ATEM via the ATEM SDK and NewTek NDI for TriCaster systems. Production directors can set the system to auto-switch or advisory mode where it suggests cuts without executing them.

MicrocosmWorks builds custom AI video analysis systems at rates of $30-$50/hr, with a multi-camera active speaker detection system including model training, TensorRT optimization, and switcher integration typically requiring 500-750 development hours. The model training phase requires GPU compute resources that usually add $2,000-$5,000 to the project cost.

مستعد لتحويل عملك؟

دعنا نناقش كيف يمكننا تطبيق حلول مشابهة لتحدياتك.

تواصل معناcaseStudyDetail.viewAllCaseStudies
الكفاءة: تسريع بمقدار 3x من خلال تحسين تقليل الإطارات
AI Accounting

معالجة الفواتير المدعومة بـ AI باستخدام OCR ودمج QuickBooks

كانت شركة متوسطة الحجم تعالج مئات فواتير الموردين شهريًا بحاجة إلى التخلص من إدخال البيانات يدويًا عن طريق استخلاص بيانات الفاتورة تلقائيًا باستخدام AI/OCR ومزامنتها مباشرةً مع QuickBooks للمسك الدفتري وتتبع المدفوعات.

اقرأ دراسة الحالة