تتبع الوجه بالذكاء الاصطناعي وإعادة التأطير الذكية لتحويل الفيديو العمودي
كانت منصة لإعادة استخدام المحتوى بحاجة إلى تحويل مقاطع الفيديو الأفقية الطويلة (16:9) تلقائيًا إلى مقاطع فيديو قصيرة عمودية (9:16) مع إبقاء المتحدثين والمواضيع في المنتصف تمامًا — دون أي قص يدوي أو إطارات مفتاحية.
ناقش مشروعكالتحدي
كان تحويل الفيديو الأفقي إلى تنسيق عمودي أحد أكثر الخطوات إرهاقًا في إنتاج المحتوى قصير الشكل:
- كان القص اليدوي وإعادة وضع الإطار لكل مقطع يستغرق وقتًا طويلاً
- تطلبت المحادثات متعددة الأشخاص إعادة تأطير ديناميكية مع تغير المتحدثين
- أدت القصات الثابتة في المنتصف إلى قطع المتحدثين الذين تحركوا أو جلسوا خارج المركز
- كان اكتشاف الوجه التقليدي بطيئًا جدًا لاتخاذ قرارات إعادة التأطير في الوقت الفعلي عبر آلاف المقاطع
- تطلبت أنواع المحتوى المختلفة (المقابلات، مدونات الفيديو الفردية، العروض التقديمية) استراتيجيات تأطير مختلفة
حلنا
لقد قمنا ببناء محرك لتتبع الوجه وإعادة التأطير الذكية المدعوم بالذكاء الاصطناعي يقوم باكتشاف الوجوه في إطارات الفيديو، وتتبع حركتها، وتعديل منطقة القص العمودي ديناميكيًا لإبقاء الموضوع النشط في المنتصف.
الهيكلية
- اكتشاف الوجه: نموذج اكتشاف الوجه يعتمد على YOLO ومُحسّن للسرعة
- تتبع الوجه: تتبع إطار بإطار يعتمد على IoU مع معرفات مواضيع دائمة
- محرك إعادة التأطير: حساب ديناميكي لمنطقة القص بناءً على مواضع الوجه وحركته
- ربط المتحدث النشط: التكامل مع اكتشاف المتحدث لإعطاء الأولوية للشخص المتحدث
- التصيير: سلسلة فلاتر القص لـ FFmpeg مع انتقالات سلسة للتحريك
سير عمل إعادة التأطير
- اكتشاف الوجه - تشغيل اكتشاف الوجه باستخدام YOLO عبر الإطارات المعاينة
- تتبع الموضوع - ربط اكتشافات الوجه عبر الإطارات باستخدام التتبع القائم على IoU
- أولوية المتحدث - عند الاقتران باكتشاف المتحدث النشط، إعطاء الأولوية للموضوع المتحدث
- حساب القص - تحديد منطقة القص المثلى (9:16) بناءً على موضع الموضوع الأساسي
- التنعيم - تطبيق التسهيل على حركة القص لتجنب القفزات المفاجئة
- التصيير - يطبق FFmpeg القص الديناميكي مع انتقالات سلسة للتحريك
الميزات الرئيسية
- التعامل مع مواضيع متعددة - يتتبع وجوهًا متعددة ويحدد الموضوع الأساسي لكل جزء
- التأطير الواعي بالمتحدث - يعطي الأولوية للمتحدث النشط عند دمجه مع اكتشاف المتحدث
- انتقالات سلسة - التحريك السلس بين المواضيع يلغي التقطيع المفاجئ
- التكيف مع نوع المحتوى - استراتيجيات تأطير مختلفة للمحتوى الفردي، المقابلات، والمجموعات
- المعالجة الدفعية - إعادة تأطير مئات المقاطع من فيديو طويل واحد
- لا تدخل يدوي - مؤتمت بالكامل من الاكتشاف إلى التصيير النهائي
النتائج
المكدس التقني
caseStudyDetail.more دراسات الحالة
استكشف المزيد من تطبيقاتنا التقنية
جدولة وتحليلات أداء وسائل التواصل الاجتماعي عبر المنصات
احتاج صانعو المحتوى الذين ينتجون عشرات المقاطع القصيرة أسبوعيًا إلى نظام جدولة وتحليلات موحد لتوزيع المحتوى عبر TikTok و YouTube Shorts و Instagram Reels من لوحة تحكم واحدة — مع رؤى لتحسين استراتيجية النشر.
ترجمة تسميات توضيحية متعددة اللغات لتوزيع المحتوى العالمي
احتاج منشئو المحتوى الذين لديهم جماهير دولية إلى توسيع نطاق وصولهم عن طريق ترجمة تسميات الفيديو التوضيحية إلى أكثر من 30 لغة مع الحفاظ على الصوت الأصلي، مما يمكّن المشاهدين في جميع أنحاء العالم من استهلاك المحتوى بلغتهم الأم.
الأسئلة الشائعة
MicrocosmWorks implemented a hybrid tracking approach that combines a lightweight face detector running every 5th frame with a KCF optical flow tracker for inter-frame predictions. When occlusion is detected via confidence score drops, the system maintains the last known trajectory with Kalman filtering and re-acquires the face within 200ms of it becoming visible again.
MicrocosmWorks built a saliency-weighted cropping algorithm that prioritizes detected faces, then text regions, then motion areas when determining the 9:16 crop window position. For multi-person scenes, the system uses a configurable priority ranking, defaulting to the active speaker or the largest face, with smooth interpolation between crop positions to avoid jarring shifts.
Yes, MicrocosmWorks implemented a fallback saliency detection mode that activates when no faces are present, using a combination of motion detection, visual attention modeling, and mouse cursor tracking for screen recordings. The system intelligently follows the most relevant content region even in purely visual or text-based footage.
MicrocosmWorks optimized the pipeline for batch workflows, achieving 8x real-time processing speed on a single NVIDIA T4 GPU, meaning a 10-minute video is reframed in approximately 75 seconds. The system supports parallel processing across multiple GPUs, scaling linearly for high-volume content operations.
MicrocosmWorks develops AI video reframing systems at rates of $25-$45/hr, with a full face tracking and smart reframing solution including model optimization, batch processing support, and API integration typically requiring 350-550 development hours. This investment eliminates the need for manual reframing editors, which typically cost $5-$15 per video.
مستعد لتحويل عملك؟
دعنا نناقش كيف يمكننا تطبيق حلول مشابهة لتحدياتك.