ML ve İçerik Oluşturma için Programatik Video Açıklama Çerçevesi
ML araştırmacıları ve video içerik oluşturucuları, eğitim verisi hazırlığından eğitim amaçlı yer paylaşımlarına kadar, büyük ölçekte açıklama eklenmiş videolar üretebilen esnek, kod odaklı bir video açıklama aracına ihtiyaç duyuyordu.
Projenizi Tartışın
Zorluk
Mevcut video açıklama araçları, ya programatik bir API'si olmayan yoğun GUI'li araçlardı ya da zayıf görselleştirmeye sahip komut satırı araçlarıydı:
- ML ekipleri, büyük ölçekte eğitim verileri için bounding box'lara, polygon'lara ve label'lara ihtiyaç duyuyordu
- Eğitimciler, öğretici videolar için animasyonlu yer paylaşımlarına (arrows, spotlights, text) ihtiyaç duyuyordu
- Geleneksel açıklama araçları, keyframe interpolation'ı veya easing animation'ları işleyemiyordu
- Hiçbir masaüstü-yerel çözümü, OpenCV işlemeyi profesyonel video çıktısıyla birleştiremiyordu
Çözümümüz
Type-safe bir açıklama sistemi, keyframe interpolation ve bir Tauri masaüstü editörü ile React/Remotion tabanlı bir video açıklama çerçevesi geliştirdik.
Mimari
- Video Motoru: Programatik kare kare rendering için Remotion 4.0
- Frontend: Vite ile React 18 + TypeScript
- Masaüstü Uygulaması: OpenCV.js ve ONNX Runtime ile Tauri 2
- Dışa Aktırma: Yüksek kaliteli video çıktısı için FFmpeg
Açıklama Türleri
- Bounding Boxes - Etiketli ve güven skorlu dikdörtgen bölgeler
- Circles - Yapılandırılabilir yarıçapa sahip nokta açıklamaları
- Polygons - Düzensiz şekiller için karmaşık bölge ana hatları
- Text Labels - Konumlandırmalı stilize metin yer paylaşımları
- Arrows - Akış veya dikkat için yön göstergeleri
- Freehand Paths - Özel çizilmiş açıklamalar
- Spotlights - Arka planı kısılmış vurgulu bölgeler
Animasyon Sistemi
- Keyframe Interpolation - Açıklama durumları arasında akıcı geçişler
- Easing Functions - Spring, ease-in-out, bounce ve özel eğriler
- Scene Composition - Giriş, açıklama katmanları, birleşik zaman çizelgesi, çıkış
- Fade Effects - Yapılandırılabilir süre ile fade-in/out
Temel Özellikler
- Type-Safe API - Tüm açıklama primitifleri için kapsamlı TypeScript tipleri
- Scene System - Sahne yapı taşlarından karmaşık videolar oluşturun
- Keyframe Animation - Herhangi bir açıklama özelliğini zaman içinde canlandırın
- Masaüstü Editörü - Gerçek zamanlı önizlemeye sahip Tauri tabanlı GUI
- Batch Export - FFmpeg aracılığıyla açıklama eklenmiş videoları render edin
- OpenCV Integration - Masaüstü uygulamasında bilgisayar görüşü işleme
Sonuçlar
Teknoloji Yığını
caseStudyDetail.more Vaka Çalışmaları
Daha fazla teknik uygulamamızı keşfedin
Yapay Zeka Destekli Uzun Metrajlı Film Üretim Hattı
Basit bir metin istemini 15-90 dakikalık bir filme dönüştüren uçtan uca bir AI hattı kurarak uzun metrajlı film üretimini demokratikleştirmeyi amaçlayan iddialı bir içerik oluşturma projesi.
AI Destekli Fatura İşleme (OCR ve QuickBooks Entegrasyonu ile)
Ayda yüzlerce satıcı faturasını işleyen orta ölçekli bir işletme, fatura verilerini AI/OCR kullanarak otomatik olarak çıkarıp muhasebe ve ödeme takibi için doğrudan QuickBooks'a senkronize ederek manuel veri girişini ortadan kaldırmak istedi.
Sıkça Sorulan Sorular
MicrocosmWorks, insan tıklamaları yerine kod tabanlı kurallar kullanarak büyük ölçekte açıklama oluşturması gereken ekipler için bu çerçeveyi oluşturdu. Önceden eğitilmiş dedektörleri, zamansal mantığı ve uzamsal kuralları uygulayan Python betikleri olarak açıklama işlem hatları yazmayı destekler; bu sayede eğitim verilerini otomatik olarak oluşturur ve ardından COCO, Pascal VOC veya YOLO formatlarında dışa aktarır.
Evet, MicrocosmWorks; kare aralıklarını, ana kare interpolasyonunu ve başlangıç/bitiş zaman damgalı olay tabanlı etiketleri destekleyen bir zamansal açıklama modeli uyguladı. Açıklamacılar, eylem etiketlemeyi otomatikleştirmek için 'poz tahmini, 3 ardışık kareden fazla bir süre boyunca her iki ayağın da yerden kesildiğini algıladığında koşuyor olarak etiketle' gibi zamansal kurallar tanımlayabilir.
MicrocosmWorks, programatik açıklamalar ile insan tarafından incelenen bir altın küme arasındaki uyum puanlarını hesaplayan, yapılandırılabilir bir IoU veya zamansal örtüşme eşiğinin altına düşen açıklamaları işaretleyen bir doğrulama işlem hattı oluşturdu. Çerçeve ayrıca, düşük güvenilirlikli açıklamaları insan incelemecilere yönlendiren aktif öğrenme iş akışlarını da destekler.
MicrocosmWorks, çerçeveyi FFmpeg ve OpenCV üzerine kurdu; MP4, MKV, AVI ve MOV dahil tüm ana kapsayıcı formatlarını H.264'ten ProRes'e kadar kodeklerle destekler. Çerçeve, videoları kendi doğal çözünürlüklerinde işler ancak büyük veri kümelerinde işlem hacmini hızlandırmak için açıklama geçişi için yapılandırılabilir ölçek küçültmeyi destekler.
MicrocosmWorks, ML altyapı projelerini 25-45 $/saat oranlarında sunar; kural motorunu, format dışa aktarıcılarını ve kalite doğrulama işlem hattını içeren programatik bir video açıklama çerçevesi genellikle 300-500 geliştirme saati gerektirir. Çerçeve, dakikası 5-15 $ arasında değişebilen manuel açıklama maliyetlerini azaltarak kendini hızla amorti eder.
İşletmenizi Dönüştürmeye Hazır mısınız?
Zorluklarınıza benzer çözümler uygulamamızın yollarını konuşalım.