MicrocosmWorksInnovation und Architektur digitaler Kosmen
Ăśber unsKontakt
MicrocosmWorksInnovieren und Gestalten digitaler Kosmen

Bereitstellung von IT-Lösungen, die zählen. Wir sind leidenschaftlich für Technologie, Sicherheit und helfen Unternehmen, durch zuverlässige, innovative IT-Infrastruktur zu wachsen.

[email protected]
+91 7011868196
New Delhi, India

AI Wachstumszentrum

AI HubStartup-InnovationUnternehmensbeschleuniger

Lösungen

Alle LösungenWellness- & Fitness-AppsAI Video PlattformAI Agent Entwicklung

Ressourcen

EinblickeBranchenleitfädenAnwendungsfall-BlaupausenArchitektur-MusterFallstudien

Unternehmen

Ăśber unsKontaktUnsere Arbeit

Dienstleistungen

Digitale BeratungCloud-InfrastrukturSaaS-EntwicklungKI-EntwicklungVideotechnologie
ERP-EntwicklungZoho-AnpassungOdoo-EntwicklungSalesforce-IntegrationBenutzerdefinierte CRM-Entwicklung
QuickBooks-IntegrationIoT-LösungenBlockchain-Entwicklung
Cybersecurity-BeratungIT-Support - L3

© 2026 MicrocosmWorks. Alle Rechte vorbehalten.

DatenschutzrichtlinieNutzungsbedingungen
ZurĂĽck zu Fallstudien
Video CreationVeröffentlicht June 22, 2026 · Aktualisiert June 22, 2026

KI-Gesichtsverfolgung & Intelligentes Re-Framing fĂĽr die Konvertierung von vertikalen Videos

Eine Content-Repurposing-Plattform benötigte eine automatische Konvertierung von horizontalen (16:9) Langform-Videos in vertikale (9:16) Kurzform-Clips, wobei Sprecher und Motive perfekt zentriert bleiben sollten — ohne manuelles Zuschneiden oder Keyframing.

Ihr Projekt besprechen
ai-face-tracking-vertical-reframing.webp
Video Creation
Domain
7
Technologies
4
Key Results
Delivered
Status

Die Herausforderung

Die Konvertierung von horizontalen Videos in das vertikale Format war einer der mĂĽhsamsten Schritte bei der Produktion von Kurzform-Inhalten:

  • Das manuelle Zuschneiden und Neupositionieren des Rahmens fĂĽr jeden Clip war zeitaufwendig
  • Gespräche mit mehreren Personen erforderten ein dynamisches Re-Framing, wenn sich die Sprecher änderten
  • Ein statischer Center-Crop schnitt Sprecher ab, die sich bewegten oder auĂźermittig saĂźen
  • Herkömmliche Gesichtserkennung war zu langsam fĂĽr Echtzeit-Re-Framing-Entscheidungen bei Tausenden von Clips
  • Verschiedene Inhaltstypen (Interviews, Solo-Vlogs, Präsentationen) erforderten unterschiedliche Framing-Strategien

Unsere Lösung

Wir haben eine KI-gestĂĽtzte Gesichtserkennungs- und intelligente Re-Framing-Engine entwickelt, die Gesichter in Videobildern erkennt, ihre Bewegung verfolgt und den vertikalen Zuschneidebereich dynamisch anpasst, um das aktive Motiv zentriert zu halten.

Architektur

  • Gesichtserkennung: YOLO-basiertes Gesichtserkennungsmodell, optimiert fĂĽr Geschwindigkeit
  • Gesichtsverfolgung: IoU-basiertes Frame-zu-Frame-Tracking mit persistenten Subjekt-IDs
  • Re-Framing-Engine: Dynamische Berechnung des Zuschneidebereichs basierend auf Gesichtspositionen und -bewegungen
  • Kopplung aktiver Sprecher: Integration mit Sprechererkennung, um die sprechende Person zu priorisieren
  • Rendering: FFmpeg-Zuschneidefilterkette mit sanften SchwenkĂĽbergängen

Re-Framing-Pipeline

  1. Gesichtserkennung – Führen Sie die YOLO-Gesichtserkennung über abgetastete Frames aus
  2. Subjekt-Tracking – Verknüpfen Sie Gesichtserkennungen über Frames hinweg mithilfe von IoU-basiertem Tracking
  3. Sprecherpriorität – Bei Kopplung mit aktiver Sprechererkennung wird das sprechende Subjekt priorisiert
  4. Zuschneideberechnung – Bestimmen Sie den optimalen 9:16-Zuschneidebereich basierend auf der Position des primären Subjekts
  5. Glättung – Wenden Sie Easing auf die Zuschneidebewegung an, um ruckartige Sprünge zu vermeiden
  6. Rendering – FFmpeg wendet den dynamischen Zuschnitt mit sanften Schwenkübergängen an

Hauptfunktionen

  1. Multi-Subjekt-Verarbeitung – Verfolgt mehrere Gesichter und bestimmt das primäre Subjekt pro Segment
  2. Sprecherbewusstes Framing – Priorisiert den aktiven Sprecher bei Integration mit Sprechererkennung
  3. Sanfte Übergänge – Eased Panning zwischen Subjekten eliminiert ruckartige Schnitte
  4. Anpassung an Inhaltstypen – Verschiedene Framing-Strategien für Solo-, Interview- und Gruppeninhalte
  5. Stapelverarbeitung – Re-Framing hunderter Clips aus einem einzigen Langform-Video
  6. Keine manuelle Intervention – Vollautomatisch von der Erkennung bis zum finalen Render

Ergebnisse

Zeitersparnis: Eliminierte 2-5 Minuten manuellen Zuschneidens pro Clip
Qualität: Subjekte blieben bei getesteten Inhalten über 95% der Zeit zentriert
Skalierung: Tausende von Clips täglich ohne menschliches Eingreifen verarbeitet

Technologie-Stack

YOLOPythonFFmpegOpenCVIoU TrackingNode.jsGPU-Accelerated Inference

caseStudyDetail.more Fallstudien

Entdecken Sie mehr unserer technischen Implementierungen

Video Creation

PlattformĂĽbergreifende Social-Media-Planung & Performance-Analyse

Content-Ersteller, die wöchentlich Dutzende von Kurzclips produzierten, benötigten ein einheitliches Planungs- und Analysesystem, um Inhalte über TikTok, YouTube Shorts und Instagram Reels von einem einzigen Dashboard aus zu verbreiten — mit Einblicken zur Optimierung der Posting-Strategie.

Fallstudie lesen
Video Creation

Mehrsprachige Untertitel-Ăśbersetzung fĂĽr die globale Inhaltsverteilung

Content-Ersteller mit internationalem Publikum mussten ihre Reichweite erweitern, indem sie Video-Untertitel in über 30 Sprachen übersetzten, während das Original-Audio erhalten blieb, sodass Zuschauer weltweit Inhalte in ihrer Muttersprache konsumieren konnten.

Fallstudie lesen

Häufig gestellte Fragen

MicrocosmWorks implemented a hybrid tracking approach that combines a lightweight face detector running every 5th frame with a KCF optical flow tracker for inter-frame predictions. When occlusion is detected via confidence score drops, the system maintains the last known trajectory with Kalman filtering and re-acquires the face within 200ms of it becoming visible again.

MicrocosmWorks built a saliency-weighted cropping algorithm that prioritizes detected faces, then text regions, then motion areas when determining the 9:16 crop window position. For multi-person scenes, the system uses a configurable priority ranking, defaulting to the active speaker or the largest face, with smooth interpolation between crop positions to avoid jarring shifts.

Yes, MicrocosmWorks implemented a fallback saliency detection mode that activates when no faces are present, using a combination of motion detection, visual attention modeling, and mouse cursor tracking for screen recordings. The system intelligently follows the most relevant content region even in purely visual or text-based footage.

MicrocosmWorks optimized the pipeline for batch workflows, achieving 8x real-time processing speed on a single NVIDIA T4 GPU, meaning a 10-minute video is reframed in approximately 75 seconds. The system supports parallel processing across multiple GPUs, scaling linearly for high-volume content operations.

MicrocosmWorks develops AI video reframing systems at rates of $25-$45/hr, with a full face tracking and smart reframing solution including model optimization, batch processing support, and API integration typically requiring 350-550 development hours. This investment eliminates the need for manual reframing editors, which typically cost $5-$15 per video.

Bereit, Ihr Unternehmen zu transformieren?

Lassen Sie uns besprechen, wie wir ähnliche Lösungen für Ihre Herausforderungen anwenden können.

Kontakt aufnehmencaseStudyDetail.viewAllCaseStudies
Zufriedenheit der Ersteller: Vertikale Clips sahen professionell gerahmt aus, ohne manuelle Bearbeitung
Video Creation

Automatisierte Untertitel-Gestaltung & Video-Export-Engine

Videokreatoren benötigten ein schnelles, zuverlässiges System, um professionelle animierte Untertitel auf Kurzvideos mit pixelgenauer Darstellung über verschiedene Stile und Plattformen hinweg anzuwenden.

Fallstudie lesen