MicrocosmWorksابتكار وتصميم الكون الرقمي
من نحناتصل بنا
MicrocosmWorksابتكار وتصميم الكون الرقمي

نقدم حلول تقنية المعلومات المهمة. نحن شغوفون بالتقنية والأمان ومساعدة الشركات على النمو من خلال بنية تحتية موثوقة ومبتكرة لتقنية المعلومات.

[email protected]
+91 7011868196
New Delhi, India

مركز نمو AI

مركز AIابتكار الشركات الناشئةمسرّع المؤسسات

الحلول

جميع الحلولتطبيقات الصحة واللياقةمنصة فيديو AIتطوير وكلاء AI

الموارد

رؤىأدلة القطاعاتمخططات حالات الاستخدامأنماط المعماريةدراسات الحالة

الشركة

من نحناتصل بناأعمالنا

الخدمات

الاستشارات الرقميةالبنية التحتية السحابيةتطوير SaaSتطوير AIتقنية الفيديو
تطوير ERPتخصيص Zohoتطوير Odooتكامل Salesforceتطوير CRM مخصص
تكامل QuickBooksحلول IoTتطوير بلوكتشين
استشارات الأمن السيبرانيالدعم التقني - L3

© 2026 MicrocosmWorks. جميع الحقوق محفوظة.

سياسة الخصوصيةشروط الخدمة
العودة إلى دراسات الحالة
Video Creationنُشر في June 22, 2026 · تم التحديث June 22, 2026

تتبع الوجه بالذكاء الاصطناعي وإعادة التأطير الذكية لتحويل الفيديو العمودي

كانت منصة لإعادة استخدام المحتوى بحاجة إلى تحويل مقاطع الفيديو الأفقية الطويلة (16:9) تلقائيًا إلى مقاطع فيديو قصيرة عمودية (9:16) مع إبقاء المتحدثين والمواضيع في المنتصف تمامًا — دون أي قص يدوي أو إطارات مفتاحية.

ناقش مشروعك
ai-face-tracking-vertical-reframing.webp
Video Creation
Domain
7
Technologies
4
Key Results
Delivered
Status

التحدي

كان تحويل الفيديو الأفقي إلى تنسيق عمودي أحد أكثر الخطوات إرهاقًا في إنتاج المحتوى قصير الشكل:

  • كان القص اليدوي وإعادة وضع الإطار لكل مقطع يستغرق وقتًا طويلاً
  • تطلبت المحادثات متعددة الأشخاص إعادة تأطير ديناميكية مع تغير المتحدثين
  • أدت القصات الثابتة في المنتصف إلى قطع المتحدثين الذين تحركوا أو جلسوا خارج المركز
  • كان اكتشاف الوجه التقليدي بطيئًا جدًا لاتخاذ قرارات إعادة التأطير في الوقت الفعلي عبر آلاف المقاطع
  • تطلبت أنواع المحتوى المختلفة (المقابلات، مدونات الفيديو الفردية، العروض التقديمية) استراتيجيات تأطير مختلفة

حلنا

لقد قمنا ببناء محرك لتتبع الوجه وإعادة التأطير الذكية المدعوم بالذكاء الاصطناعي يقوم باكتشاف الوجوه في إطارات الفيديو، وتتبع حركتها، وتعديل منطقة القص العمودي ديناميكيًا لإبقاء الموضوع النشط في المنتصف.

الهيكلية

  • اكتشاف الوجه: نموذج اكتشاف الوجه يعتمد على YOLO ومُحسّن للسرعة
  • تتبع الوجه: تتبع إطار بإطار يعتمد على IoU مع معرفات مواضيع دائمة
  • محرك إعادة التأطير: حساب ديناميكي لمنطقة القص بناءً على مواضع الوجه وحركته
  • ربط المتحدث النشط: التكامل مع اكتشاف المتحدث لإعطاء الأولوية للشخص المتحدث
  • التصيير: سلسلة فلاتر القص لـ FFmpeg مع انتقالات سلسة للتحريك

سير عمل إعادة التأطير

  1. اكتشاف الوجه - تشغيل اكتشاف الوجه باستخدام YOLO عبر الإطارات المعاينة
  2. تتبع الموضوع - ربط اكتشافات الوجه عبر الإطارات باستخدام التتبع القائم على IoU
  3. أولوية المتحدث - عند الاقتران باكتشاف المتحدث النشط، إعطاء الأولوية للموضوع المتحدث
  4. حساب القص - تحديد منطقة القص المثلى (9:16) بناءً على موضع الموضوع الأساسي
  5. التنعيم - تطبيق التسهيل على حركة القص لتجنب القفزات المفاجئة
  6. التصيير - يطبق FFmpeg القص الديناميكي مع انتقالات سلسة للتحريك

الميزات الرئيسية

  1. التعامل مع مواضيع متعددة - يتتبع وجوهًا متعددة ويحدد الموضوع الأساسي لكل جزء
  2. التأطير الواعي بالمتحدث - يعطي الأولوية للمتحدث النشط عند دمجه مع اكتشاف المتحدث
  3. انتقالات سلسة - التحريك السلس بين المواضيع يلغي التقطيع المفاجئ
  4. التكيف مع نوع المحتوى - استراتيجيات تأطير مختلفة للمحتوى الفردي، المقابلات، والمجموعات
  5. المعالجة الدفعية - إعادة تأطير مئات المقاطع من فيديو طويل واحد
  6. لا تدخل يدوي - مؤتمت بالكامل من الاكتشاف إلى التصيير النهائي

النتائج

توفير الوقت: تم التخلص من 2-5 دقائق من القص اليدوي لكل مقطع
الجودة: بقي المواضيع في المنتصف بنسبة تزيد عن 95% من الوقت عبر المحتوى الذي تم اختباره
النطاق: تمت معالجة آلاف المقاطع يوميًا دون تدخل بشري

المكدس التقني

YOLOPythonFFmpegOpenCVIoU TrackingNode.jsGPU-Accelerated Inference

caseStudyDetail.more دراسات الحالة

استكشف المزيد من تطبيقاتنا التقنية

Video Creation

جدولة وتحليلات أداء وسائل التواصل الاجتماعي عبر المنصات

احتاج صانعو المحتوى الذين ينتجون عشرات المقاطع القصيرة أسبوعيًا إلى نظام جدولة وتحليلات موحد لتوزيع المحتوى عبر TikTok و YouTube Shorts و Instagram Reels من لوحة تحكم واحدة — مع رؤى لتحسين استراتيجية النشر.

اقرأ دراسة الحالة
Video Creation

ترجمة تسميات توضيحية متعددة اللغات لتوزيع المحتوى العالمي

احتاج منشئو المحتوى الذين لديهم جماهير دولية إلى توسيع نطاق وصولهم عن طريق ترجمة تسميات الفيديو التوضيحية إلى أكثر من 30 لغة مع الحفاظ على الصوت الأصلي، مما يمكّن المشاهدين في جميع أنحاء العالم من استهلاك المحتوى بلغتهم الأم.

اقرأ دراسة الحالة

الأسئلة الشائعة

MicrocosmWorks implemented a hybrid tracking approach that combines a lightweight face detector running every 5th frame with a KCF optical flow tracker for inter-frame predictions. When occlusion is detected via confidence score drops, the system maintains the last known trajectory with Kalman filtering and re-acquires the face within 200ms of it becoming visible again.

MicrocosmWorks built a saliency-weighted cropping algorithm that prioritizes detected faces, then text regions, then motion areas when determining the 9:16 crop window position. For multi-person scenes, the system uses a configurable priority ranking, defaulting to the active speaker or the largest face, with smooth interpolation between crop positions to avoid jarring shifts.

Yes, MicrocosmWorks implemented a fallback saliency detection mode that activates when no faces are present, using a combination of motion detection, visual attention modeling, and mouse cursor tracking for screen recordings. The system intelligently follows the most relevant content region even in purely visual or text-based footage.

MicrocosmWorks optimized the pipeline for batch workflows, achieving 8x real-time processing speed on a single NVIDIA T4 GPU, meaning a 10-minute video is reframed in approximately 75 seconds. The system supports parallel processing across multiple GPUs, scaling linearly for high-volume content operations.

MicrocosmWorks develops AI video reframing systems at rates of $25-$45/hr, with a full face tracking and smart reframing solution including model optimization, batch processing support, and API integration typically requiring 350-550 development hours. This investment eliminates the need for manual reframing editors, which typically cost $5-$15 per video.

مستعد لتحويل عملك؟

دعنا نناقش كيف يمكننا تطبيق حلول مشابهة لتحدياتك.

تواصل معناcaseStudyDetail.viewAllCaseStudies
رضا المبدعين: بدت المقاطع العمودية مؤطرة بشكل احترافي دون تعديل يدوي
Video Creation

محرك تلقائي لتنسيق التسميات التوضيحية وتصدير الفيديو

كان منشئو الفيديو بحاجة إلى نظام سريع وموثوق لتطبيق تسميات توضيحية متحركة احترافية على مقاطع الفيديو القصيرة مع عرض مثالي للبكسل عبر أنماط ومنصات مختلفة.

اقرأ دراسة الحالة