KI-Gesichtsverfolgung & Intelligentes Re-Framing fĂĽr die Konvertierung von vertikalen Videos
Eine Content-Repurposing-Plattform benötigte eine automatische Konvertierung von horizontalen (16:9) Langform-Videos in vertikale (9:16) Kurzform-Clips, wobei Sprecher und Motive perfekt zentriert bleiben sollten — ohne manuelles Zuschneiden oder Keyframing.
Ihr Projekt besprechenDie Herausforderung
Die Konvertierung von horizontalen Videos in das vertikale Format war einer der mĂĽhsamsten Schritte bei der Produktion von Kurzform-Inhalten:
- Das manuelle Zuschneiden und Neupositionieren des Rahmens fĂĽr jeden Clip war zeitaufwendig
- Gespräche mit mehreren Personen erforderten ein dynamisches Re-Framing, wenn sich die Sprecher änderten
- Ein statischer Center-Crop schnitt Sprecher ab, die sich bewegten oder auĂźermittig saĂźen
- Herkömmliche Gesichtserkennung war zu langsam für Echtzeit-Re-Framing-Entscheidungen bei Tausenden von Clips
- Verschiedene Inhaltstypen (Interviews, Solo-Vlogs, Präsentationen) erforderten unterschiedliche Framing-Strategien
Unsere Lösung
Wir haben eine KI-gestĂĽtzte Gesichtserkennungs- und intelligente Re-Framing-Engine entwickelt, die Gesichter in Videobildern erkennt, ihre Bewegung verfolgt und den vertikalen Zuschneidebereich dynamisch anpasst, um das aktive Motiv zentriert zu halten.
Architektur
- Gesichtserkennung: YOLO-basiertes Gesichtserkennungsmodell, optimiert fĂĽr Geschwindigkeit
- Gesichtsverfolgung: IoU-basiertes Frame-zu-Frame-Tracking mit persistenten Subjekt-IDs
- Re-Framing-Engine: Dynamische Berechnung des Zuschneidebereichs basierend auf Gesichtspositionen und -bewegungen
- Kopplung aktiver Sprecher: Integration mit Sprechererkennung, um die sprechende Person zu priorisieren
- Rendering: FFmpeg-Zuschneidefilterkette mit sanften Schwenkübergängen
Re-Framing-Pipeline
- Gesichtserkennung – Führen Sie die YOLO-Gesichtserkennung über abgetastete Frames aus
- Subjekt-Tracking – Verknüpfen Sie Gesichtserkennungen über Frames hinweg mithilfe von IoU-basiertem Tracking
- Sprecherpriorität – Bei Kopplung mit aktiver Sprechererkennung wird das sprechende Subjekt priorisiert
- Zuschneideberechnung – Bestimmen Sie den optimalen 9:16-Zuschneidebereich basierend auf der Position des primären Subjekts
- Glättung – Wenden Sie Easing auf die Zuschneidebewegung an, um ruckartige Sprünge zu vermeiden
- Rendering – FFmpeg wendet den dynamischen Zuschnitt mit sanften Schwenkübergängen an
Hauptfunktionen
- Multi-Subjekt-Verarbeitung – Verfolgt mehrere Gesichter und bestimmt das primäre Subjekt pro Segment
- Sprecherbewusstes Framing – Priorisiert den aktiven Sprecher bei Integration mit Sprechererkennung
- Sanfte Übergänge – Eased Panning zwischen Subjekten eliminiert ruckartige Schnitte
- Anpassung an Inhaltstypen – Verschiedene Framing-Strategien für Solo-, Interview- und Gruppeninhalte
- Stapelverarbeitung – Re-Framing hunderter Clips aus einem einzigen Langform-Video
- Keine manuelle Intervention – Vollautomatisch von der Erkennung bis zum finalen Render
Ergebnisse
Technologie-Stack
caseStudyDetail.more Fallstudien
Entdecken Sie mehr unserer technischen Implementierungen
PlattformĂĽbergreifende Social-Media-Planung & Performance-Analyse
Content-Ersteller, die wöchentlich Dutzende von Kurzclips produzierten, benötigten ein einheitliches Planungs- und Analysesystem, um Inhalte über TikTok, YouTube Shorts und Instagram Reels von einem einzigen Dashboard aus zu verbreiten — mit Einblicken zur Optimierung der Posting-Strategie.
Mehrsprachige Untertitel-Ăśbersetzung fĂĽr die globale Inhaltsverteilung
Content-Ersteller mit internationalem Publikum mussten ihre Reichweite erweitern, indem sie Video-Untertitel in über 30 Sprachen übersetzten, während das Original-Audio erhalten blieb, sodass Zuschauer weltweit Inhalte in ihrer Muttersprache konsumieren konnten.
Häufig gestellte Fragen
MicrocosmWorks implemented a hybrid tracking approach that combines a lightweight face detector running every 5th frame with a KCF optical flow tracker for inter-frame predictions. When occlusion is detected via confidence score drops, the system maintains the last known trajectory with Kalman filtering and re-acquires the face within 200ms of it becoming visible again.
MicrocosmWorks built a saliency-weighted cropping algorithm that prioritizes detected faces, then text regions, then motion areas when determining the 9:16 crop window position. For multi-person scenes, the system uses a configurable priority ranking, defaulting to the active speaker or the largest face, with smooth interpolation between crop positions to avoid jarring shifts.
Yes, MicrocosmWorks implemented a fallback saliency detection mode that activates when no faces are present, using a combination of motion detection, visual attention modeling, and mouse cursor tracking for screen recordings. The system intelligently follows the most relevant content region even in purely visual or text-based footage.
MicrocosmWorks optimized the pipeline for batch workflows, achieving 8x real-time processing speed on a single NVIDIA T4 GPU, meaning a 10-minute video is reframed in approximately 75 seconds. The system supports parallel processing across multiple GPUs, scaling linearly for high-volume content operations.
MicrocosmWorks develops AI video reframing systems at rates of $25-$45/hr, with a full face tracking and smart reframing solution including model optimization, batch processing support, and API integration typically requiring 350-550 development hours. This investment eliminates the need for manual reframing editors, which typically cost $5-$15 per video.
Bereit, Ihr Unternehmen zu transformieren?
Lassen Sie uns besprechen, wie wir ähnliche Lösungen für Ihre Herausforderungen anwenden können.