تتبع الكائنات في الفيديو في الوقت الفعلي مع التوسيط والاستعادة التلقائيين
احتاج فريق إنتاج فيديو إلى أداة يمكنها تتبع كائن محدد في لقطات الفيديو وإبقائه في مركز الإطار تلقائيًا أثناء حركته — مع انتقالات سلسة، وخيارات متعددة لخوارزميات التتبع، واستعادة تلقائية عندما يفقد المتتبع الهدف.
ناقش مشروعكالتحدي
تطلب إبقاء كائن متحرك في مركز الفيديو جهدًا يدويًا أو معدات متخصصة باهظة الثمن:
- إعادة تأطير يدوية — أمضى المحررون ساعات في تحديد إطارات مفتاحية يدوية لتعديلات الموضع للحفاظ على تركيز الكائنات
- فشل التتبع — تحركت الكائنات خلف العوائق، أو تغير مظهرها، أو تحركت بسرعة كبيرة جدًا للمتتبعات البسيطة
- لا توجد استعادة — عندما يفقد المتتبع هدفه، كان يجب إعادة تشغيل جلسة التتبع بأكملها من البداية
- إخراج متذبذب — أنتجت إحداثيات التتبع الخام حركات كاميرا متقطعة وغير طبيعية
- مفاضلات الخوارزميات — تطلبت السيناريوهات المختلفة خوارزميات تتبع مختلفة (دقة مقابل سرعة)، لكن التبديل كان معقدًا
- اختيار تفاعلي — احتاج المستخدمون إلى طريقة بديهية لاختيار هدف التتبع أثناء التشغيل
حلنا
لقد قمنا ببناء نظام تتبع وتوسيط الكائنات في الوقت الفعلي باستخدام خوارزميات تتبع OpenCV المتعددة، واستعادة تلقائية قائمة على مطابقة الميزات، ومتوسط أسي سلس للحركة الطبيعية، وواجهة مستخدم رسومية GUI تفاعلية لاختيار الكائنات.
الهندسة المعمارية
- محرك التتبع: OpenCV مع تطبيقات متتبع CSRT وKCF وMOSSE
- نظام الاستعادة: استخراج ميزات ORB مع إعادة التعرف المستندة إلى homography
- محرك التوسيط: تحويل Affine مع تسوية المتوسط المتحرك الأسي
- واجهة الاختيار: واجهة مستخدم رسومية GUI بالنقر والسحب مع تغذية راجعة مرئية
- التهيئة: إعدادات YAML لجميع معلمات التتبع والعرض والتوسيط
خوارزميات التتبع
يدعم النظام ثلاث خوارزميات تتبع، يمكن اختيارها عبر التهيئة:
CSRT (موثوقية القناة والمكان)
أفضل دقة للسيناريوهات المعقدة. يستخدم خرائط الموثوقية المكانية والأوزان الخاصة بالقنوات للتعامل مع الانسداد الجزئي وتغيرات المظهر. مناسب عندما تكون الدقة أهم من السرعة.
KCF (مرشحات الارتباط المحسّنة بالنواة)
أداء متوازن لمعظم حالات الاستخدام. يستخدم الارتباط الدائري في مجال فورييه للتتبع الفعال بدقة جيدة. مناسب للتتبع للأغراض العامة بمعدلات إطارات معتدلة.
MOSSE (الحد الأدنى لمجموع مربعات أخطاء الإخراج)
أسرع متتبع لتطبيقات الوقت الفعلي. يستخدم مرشحات الارتباط التكيفية بتكلفة حسابية منخفضة للغاية. مناسب عندما يكون معدل الإطارات حرجًا ويتبع الكائن مسارات متوقعة.
نظام الاستعادة التلقائية
عندما يفقد المتتبع الأساسي الهدف (كائن محجوب، خرج من الإطار، تغير المظهر)، يحاول النظام إعادة التعرف تلقائيًا:
- استخراج الميزات — يتم استخراج واصفات ORB (Oriented FAST and Rotated BRIEF) من منطقة الكائن الأولية والإطار الحالي
- مطابقة الميزات — مطابقة بالقوة الغاشمة مع Hamming distance، ومصفاة باختبار نسبة Lowe للاحتفاظ فقط بالمطابقات الموثوقة
- تقدير Homography — يتم حساب homography المستندة إلى RANSAC من نقاط الميزات المتطابقة، مع رفض القيم الشاذة
- استعادة Bounding Box — يتم تحويل زوايا Bounding Box الأولية عبر homography إلى الموضع الجديد للكائن
- إعادة تهيئة المتتبع — إذا كان الموضع المستعاد صالحًا (أبعاد إيجابية، ضمن حدود الإطار)، يتم إعادة تهيئة المتتبع في الموقع الجديد
يسمح هذا للنظام بالتعافي من الانسدادات القصيرة وإعادة اكتساب الهدف دون تدخل المستخدم.
التوسيط السلس
تحويل الإطار
بمجرد معرفة موضع الكائن، يقوم النظام بتوسيعه باستخدام تحويل affine:
- يتم حساب مراكز الكائن والإطار
- يتم حساب إزاحة التحويل المطلوبة
- يتم نقل الإطار باستخدام تحويل affine بلون حشو قابل للتكوين
تقليل التذبذب
إحداثيات التتبع الخام صاخبة. يطبق النظام تسوية المتوسط المتحرك الأسي:
- يتحكم عامل التسوية القابل للتكوين في المفاضلة بين الاستجابة والاستقرار
- تنتج القيم المنخفضة حركة أكثر سلاسة وسينمائية مع تأخير طفيف
- تتبع القيم الأعلى عن كثب ولكن تظهر تذبذبًا أكبر
- النتيجة هي سلوك متابعة الكاميرا ذو مظهر طبيعي
اختيار الكائنات التفاعلي
يتم دعم ثلاثة أوضاع اختيار:
- وضع GUI — النقر والسحب على إطار الفيديو مع تغذية راجعة مرئية للحجم، والتأكيد بمسافة/إدخال، والإلغاء بـ escape
- وضع ROI — محدد منطقة الاهتمام المدمج في OpenCV
- وضع الإحداثيات — مربع تحديد bounding box محدد مسبقًا من ملف التهيئة
عرض في الوقت الفعلي
يعرض تراكب العارض ما يلي:
- مربع تحديد Bounding box حول الكائن المتتبع
- شعيرات متصالبة مركزية لمرجع المحاذاة
- مؤشر حالة التتبع (يتتبع / مفقود / متوقف مؤقتًا)
- معدل الإطارات الحالي FPS لمراقبة الأداء
- اسم خوارزمية المتتبع النشطة
عناصر التحكم في التشغيل
- تشغيل/إيقاف مؤقت — تبديل التتبع باستخدام شريط المسافة
- إعادة تعيين — اختيار هدف تتبع جديد في منتصف الجلسة
- تكرار — إعادة تشغيل الفيديو تلقائيًا مع الحفاظ على حالة التتبع
- إنهاء — تحرير الموارد بشكل نظيف
الميزات الرئيسية
- ثلاث خوارزميات تتبع — CSRT (دقة)، KCF (متوازن)، MOSSE (سرعة) — قابلة للتبديل عبر التهيئة
- استعادة تلقائية — مطابقة ميزات ORB مع homography تعيد تحديد موقع الأهداف المفقودة
- توسيط سلس — المتوسط المتحرك الأسي يزيل التذبذب للحركة الطبيعية
- اختيار تفاعلي — واجهة مستخدم رسومية GUI بالنقر والسحب مع تغذية راجعة مرئية لاختيار الهدف
- أداء في الوقت الفعلي — 25-60+ إطارًا في الثانية FPS حسب اختيار الخوارزمية
- تشغيل متكرر — إعادة تشغيل فيديو مستمرة مع تتبع ثابت
- تهيئة YAML — جميع المعلمات (الخوارزمية، التسوية، العرض، الدقة) قابلة للتكوين
- تصميم معياري — فصل واضح بين مكونات المتتبع، المحدد، ومعالج الفيديو
النتائج
المكدس التقني
caseStudyDetail.more دراسات الحالة
استكشف المزيد من تطبيقاتنا التقنية
تحرير الفيديو عبر الأنظمة الأساسية للهواتف المحمولة بتحليل مدعوم بالذكاء الاصطناعي
احتاج صناع المحتوى والمتخصصون في وسائل الإعلام إلى حل لتحرير الفيديو يركز على الهاتف المحمول ويمكنه الاستفادة من نتائج التحليل المدعومة بـ AI لسير عمل تحرير أكثر ذكاءً أثناء التنقل.
كشف المتحدث النشط المدعوم بالذكاء الاصطناعي لإنتاج الفيديو متعدد الكاميرات
كانت شركة إنتاج إعلامي تتعامل مع تصوير المقابلات وحلقات النقاش متعددة الكاميرات بحاجة إلى طريقة مؤتمتة لتحديد من يتحدث في أي لحظة عبر لقطات الفيديو المعقدة.
الأسئلة الشائعة
نفذت MicrocosmWorks وحدة إعادة تحديد الهوية تخزن ميزات التضمين البصرية للكائن المتتبع باستخدام شبكة عصبية تلافيفية خفيفة الوزن (CNN). عند فقدان التتبع بسبب الانسداد أو الخروج من الإطار، ينشط النظام وضع بحث يقارن الكائنات المكتشفة بالتضمين المخزن، ليستعيد التتبع في غضون 2-3 إطارات من إعادة ظهور الكائن.
قامت MicrocosmWorks بتحسين خط أنابيب التتبع للحفاظ على معالجة بمعدل 60 إطارًا في الثانية (60fps) على أجهزة NVIDIA Jetson Orin و 30 إطارًا في الثانية (30fps) على وحدات معالجة الرسومات (GPUs) الاستهلاكية مثل RTX 3060. تضيف حسابات التوسيط التلقائي، بما في ذلك استيفاء التحريك السلس لتجنب الحركات المفاجئة، أقل من 2 مللي ثانية (2ms) من الحمل الزائد لكل إطار إلى تكلفة التتبع الأساسية.
صممت MicrocosmWorks نظام تخميد للحركة بمعلمات قابلة للتكوين لحدود التسارع، والسرعة القصوى للتحريك (pan)، ونصف قطر المنطقة الميتة حول مركز الإطار. تستخدم خوارزمية التوسيط فيزياء الزنبرك المخمد حرجاً (critically-damped spring physics) لإنتاج حركات كاميرا سلسة بجودة بث تتبع الهدف دون تذبذب أو تجاوز.
نعم، صممت MicrocosmWorks النظام خصيصًا لمتطلبات زمن الوصول للبث المباشر، حيث يعمل خط أنابيب التتبع وإعادة التأطير بالكامل ضمن تأخير إطار واحد. تم نشر النظام في بث مباريات كرة السلة وكرة القدم والتنس حيث ينتج تلقائيًا إخراج كاميرا متابعة (follow-cam) ضيقة من كاميرا ثابتة ذات زاوية واسعة.
تبني MicrocosmWorks أنظمة معالجة الفيديو في الوقت الفعلي بأسعار تتراوح بين 30-50 دولارًا في الساعة، مع حل تتبع وتوسيط تلقائي يتضمن تدريب النماذج، وتحسين أداء وحدات معالجة الرسومات (GPU)، وتكامل البث ويتطلب عادةً من 400 إلى 600 ساعة تطوير. يضيف تحسين النشر على الحافة (Edge deployment) لأجهزة مثل Jetson حوالي 80-120 ساعة إضافية.
مستعد لتحويل عملك؟
دعنا نناقش كيف يمكننا تطبيق حلول مشابهة لتحدياتك.