מעקב פנים ב-AI ומיסגור חכם מחדש להמרת וידאו אנכי
פלטפורמה לשימוש חוזר בתוכן נזקקה להמיר אוטומטית סרטוני וידאו ארוכים (16:9) אופקיים לקליפים קצרים (9:16) אנכיים, תוך שמירה על דוברים ונושאים ממורכזים באופן מושלם — ללא כל חיתוך ידני או הגדרת נקודות מפתח.
דון בפרויקט שלךהאתגר
המרת וידאו אופקי לפורמט אנכי הייתה אחד השלבים המייגעים ביותר בהפקת תוכן קצר:
- חיתוך ידני ומיקום מחדש של המסגרת עבור כל קליפ היה גוזל זמן
- שיחות מרובות משתתפים דרשו מיסגור דינמי מחדש כאשר הדוברים התחלפו
- חיתוך סטטי למרכז חתך דוברים שנעו או ישבו מחוץ למרכז
- זיהוי פנים מסורתי היה איטי מדי עבור החלטות מיסגור מחדש בזמן אמת על פני אלפי קליפים
- סוגי תוכן שונים (ראיונות, וולוגים אישיים, מצגות) דרשו אסטרטגיות מיסגור שונות
הפתרון שלנו
בנינו מנוע מעקב פנים מבוסס AI ומיסגור חכם מחדש שמזהה פנים בפריים של וידאו, עוקב אחר תנועתם, ומתאים באופן דינמי את אזור החיתוך האנכי כדי לשמור על הנושא הפעיל במרכז.
ארכיטקטורה
- זיהוי פנים: מודל זיהוי פנים מבוסס YOLO מותאם למהירות
- מעקב פנים: מעקב פריים-אחר-פריים מבוסס IoU עם מזהי נושאים קבועים
- מנוע מיסגור מחדש: חישוב דינמי של אזור החיתוך בהתבסס על מיקומי פנים ותנועה
- שילוב דובר פעיל: אינטגרציה עם זיהוי דוברים לתעדוף האדם המדבר
- רינדור: שרשרת פילטרי חיתוך של FFmpeg עם מעברי פאן חלקים
צינור מיסגור מחדש
- זיהוי פנים - הפעלת זיהוי פנים YOLO על פני פריימים מדגמיים
- מעקב נושאים - קישור זיהויי פנים על פני פריימים באמצעות מעקב מבוסס IoU
- עדיפות דובר - כאשר משולב עם זיהוי דובר פעיל, לתעדף את הנושא המדבר
- חישוב חיתוך - קביעת אזור החיתוך האופטימלי 9:16 בהתבסס על מיקום הנושא הראשי
- החלקה - יישום החלקה לתנועת החיתוך כדי למנוע קפיצות לא נעימות
- רינדור - FFmpeg מיישם את החיתוך הדינמי עם מעברי פאן חלקים
תכונות מפתח
- טיפול במספר נושאים - עוקב אחר מספר פנים וקובע את הנושא הראשי לכל מקטע
- מיסגור מודע לדובר - מתעדף את הדובר הפעיל כאשר משולב עם זיהוי דוברים
- מעברים חלקים - הזזת פאן מרוככת בין נושאים מבטלת חיתוכים פתאומיים
- התאמה לסוג תוכן - אסטרטגיות מיסגור שונות עבור תוכן אישי, ראיון וקבוצתי
- עיבוד אצווה - מיסגור מחדש של מאות קליפים מתוך סרטון וידאו ארוך אחד
- ללא התערבות ידנית - אוטומטי לחלוטין מזיהוי ועד לרינדור סופי
תוצאות
מחסנית טכנולוגית
caseStudyDetail.more מקרי בוחן
גלה עוד מהיישומים הטכניים שלנו
תזמון וניתוח ביצועים של מדיה חברתית חוצת-פלטפורמות
יוצרי תוכן המפיקים עשרות קטעי וידאו קצרים מדי שבוע נזקקו למערכת תזמון וניתוח מאוחדת להפצת תוכן ברחבי TikTok, YouTube Shorts ו-Instagram Reels מלוח מחוונים אחד — עם תובנות לאופטימיזציה של אסטרטגיית פרסום.
תרגום כתוביות רב-לשוני להפצת תוכן גלובלית
יוצרי תוכן עם קהלים בינלאומיים נזקקו להרחיב את טווח ההגעה שלהם על ידי תרגום כתוביות וידאו ל-30+ שפות תוך שמירה על השמע המקורי, מה שמאפשר לצופים ברחבי העולם לצרוך תוכן בשפת האם שלהם.
שאלות נפוצות
MicrocosmWorks implemented a hybrid tracking approach that combines a lightweight face detector running every 5th frame with a KCF optical flow tracker for inter-frame predictions. When occlusion is detected via confidence score drops, the system maintains the last known trajectory with Kalman filtering and re-acquires the face within 200ms of it becoming visible again.
MicrocosmWorks built a saliency-weighted cropping algorithm that prioritizes detected faces, then text regions, then motion areas when determining the 9:16 crop window position. For multi-person scenes, the system uses a configurable priority ranking, defaulting to the active speaker or the largest face, with smooth interpolation between crop positions to avoid jarring shifts.
Yes, MicrocosmWorks implemented a fallback saliency detection mode that activates when no faces are present, using a combination of motion detection, visual attention modeling, and mouse cursor tracking for screen recordings. The system intelligently follows the most relevant content region even in purely visual or text-based footage.
MicrocosmWorks optimized the pipeline for batch workflows, achieving 8x real-time processing speed on a single NVIDIA T4 GPU, meaning a 10-minute video is reframed in approximately 75 seconds. The system supports parallel processing across multiple GPUs, scaling linearly for high-volume content operations.
MicrocosmWorks develops AI video reframing systems at rates of $25-$45/hr, with a full face tracking and smart reframing solution including model optimization, batch processing support, and API integration typically requiring 350-550 development hours. This investment eliminates the need for manual reframing editors, which typically cost $5-$15 per video.
מוכן לשנות את העסק שלך?
בואו נדון כיצד נוכל ליישם פתרונות דומים לאתגרים שלך.