Dikey Video Dönüşümü için Yapay Zeka Destekli Yüz Takibi ve Akıllı Yeniden Çerçeveleme
Bir içerik yeniden kullanım platformu, yatay (16:9) uzun biçimli videoları, konuşmacıları ve konuları mükemmel bir şekilde merkezde tutarak, herhangi bir manuel kırpma veya anahtar kareleme olmaksızın dikey (9:16) kısa biçimli kliplere otomatik olarak dönüştürme ihtiyacı duyuyordu.
Projenizi TartışınZorluk
Yatay videoyu dikey formata dönüştürmek, kısa biçimli içerik üretimindeki en zahmetli adımlardan biriydi:
- Her klip için çerçeveyi manuel olarak kırpmak ve yeniden konumlandırmak zaman alıcıydı
- Çok kişili sohbetler, konuşmacılar değiştikçe dinamik yeniden çerçeveleme gerektiriyordu
- Statik merkezden kırpma, hareket eden veya merkezden uzakta oturan konuşmacıları dışarıda bırakıyordu
- Geleneksel yüz algılama, binlerce klip arasında gerçek zamanlı yeniden çerçeveleme kararları için çok yavaştı
- Farklı içerik türleri (röportajlar, solo vlog'lar, sunumlar) farklı çerçeveleme stratejileri gerektiriyordu
Çözümümüz
Video karelerindeki yüzleri algılayan, hareketlerini takip eden ve aktif konuyu merkezde tutmak için dikey kırpma bölgesini dinamik olarak ayarlayan yapay zeka destekli bir yüz izleme ve akıllı yeniden çerçeveleme motoru geliştirdik.
Mimari
- Yüz Algılama: Hız için optimize edilmiş YOLO tabanlı yüz algılama modeli
- Yüz Takibi: Kalıcı konu kimlikleriyle IoU tabanlı kareler arası takip
- Yeniden Çerçeveleme Motoru: Yüz pozisyonları ve hareketine dayalı dinamik kırpma alanı hesaplaması
- Aktif Konuşmacı Eşleştirme: Konuşan kişiyi önceliklendirmek için konuşmacı algılama ile entegrasyon
- Görüntüleme (Rendering): Pürüzsüz kaydırma geçişleri ile FFmpeg kırpma filtresi zinciri
Yeniden Çerçeveleme Hattı
- Yüz Algılama - Örneklenmiş kareler üzerinde YOLO yüz algılama çalıştırın
- Konu Takibi - IoU tabanlı takip kullanarak yüz algılamalarını kareler arasında bağlayın
- Konuşmacı Önceliği - Aktif konuşmacı algılama ile eşleştirildiğinde, konuşan konuyu önceliklendirin
- Kırpma Hesaplaması - Birincil konu pozisyonuna göre optimal 9:16 kırpma bölgesini belirleyin
- Yumuşatma - Sarsıntılı atlamaları önlemek için kırpma hareketine yumuşatma uygulayın
- Görüntüleme (Rendering) - FFmpeg, dinamik kırpmayı pürüzsüz kaydırma geçişleriyle uygular
Temel Özellikler
- Çoklu Konu Yönetimi - Birden fazla yüzü takip eder ve her segment için birincil konuyu belirler
- Konuşmacı Bilinçli Çerçeveleme - Konuşmacı algılama ile entegre edildiğinde aktif konuşmacıya öncelik verir
- Pürüzsüz Geçişler - Konular arasında yumuşatılmış kaydırma, sarsıntılı kesmeleri ortadan kaldırır
- İçerik Türü Adaptasyonu - Solo, röportaj ve grup içerikleri için farklı çerçeveleme stratejileri
- Toplu İşleme - Tek bir uzun biçimli videodan yüzlerce klibi yeniden çerçeveler
- Manuel Müdahale Yok - Algılamadan nihai görüntülemeye kadar tamamen otomatiktir
Sonuçlar
Teknoloji Yığını
caseStudyDetail.more Vaka Çalışmaları
Daha fazla teknik uygulamamızı keşfedin
Çapraz Platform Sosyal Medya Planlama ve Performans Analizi
Haftalık onlarca kısa video klibi üreten içerik oluşturucular, tek bir kontrol panelinden TikTok, YouTube Shorts ve Instagram Reels genelinde içerik dağıtmak için birleşik bir planlama ve analiz sistemine ihtiyaç duydu — gönderi stratejisini optimize etmek için içgörülerle birlikte.
Küresel İçerik Dağıtımı için Çok Dilli Altyazı Çevirisi
Uluslararası kitlelere sahip içerik oluşturucular, orijinal sesi koruyarak video altyazılarını 30'dan fazla dile çevirerek erişimlerini genişletmeye ihtiyaç duyuyordu; bu sayede dünya çapındaki izleyicilerin içeriği kendi ana dillerinde tüketmesi sağlanacaktı.
Sıkça Sorulan Sorular
MicrocosmWorks implemented a hybrid tracking approach that combines a lightweight face detector running every 5th frame with a KCF optical flow tracker for inter-frame predictions. When occlusion is detected via confidence score drops, the system maintains the last known trajectory with Kalman filtering and re-acquires the face within 200ms of it becoming visible again.
MicrocosmWorks built a saliency-weighted cropping algorithm that prioritizes detected faces, then text regions, then motion areas when determining the 9:16 crop window position. For multi-person scenes, the system uses a configurable priority ranking, defaulting to the active speaker or the largest face, with smooth interpolation between crop positions to avoid jarring shifts.
Yes, MicrocosmWorks implemented a fallback saliency detection mode that activates when no faces are present, using a combination of motion detection, visual attention modeling, and mouse cursor tracking for screen recordings. The system intelligently follows the most relevant content region even in purely visual or text-based footage.
MicrocosmWorks optimized the pipeline for batch workflows, achieving 8x real-time processing speed on a single NVIDIA T4 GPU, meaning a 10-minute video is reframed in approximately 75 seconds. The system supports parallel processing across multiple GPUs, scaling linearly for high-volume content operations.
MicrocosmWorks develops AI video reframing systems at rates of $25-$45/hr, with a full face tracking and smart reframing solution including model optimization, batch processing support, and API integration typically requiring 350-550 development hours. This investment eliminates the need for manual reframing editors, which typically cost $5-$15 per video.
İşletmenizi Dönüştürmeye Hazır mısınız?
Zorluklarınıza benzer çözümler uygulamamızın yollarını konuşalım.