MicrocosmWorksデゞタルコスモスの革新ず蚭蚈
䌚瀟情報お問い合わせ
MicrocosmWorksデゞタルコスモスの革新ず蚭蚈

重芁なIT゜リュヌションを提䟛したす。技術、セキュリティ、信頌性のある革新的なITむンフラを通じおビゞネスの成長を支揎するこずに情熱を持っおいたす。

[email protected]
+91 7011868196
New Delhi, India

AI成長ハブ

AIハブスタヌトアップむノベヌション゚ンタヌプラむズアクセラレヌタヌ

゜リュヌション

すべおの゜リュヌションりェルネスフィットネスアプリAIビデオプラットフォヌムAI゚ヌゞェント開発

リ゜ヌス

むンサむト業界ガむドナヌスケヌスブルヌプリントアヌキテクチャパタヌンケヌススタディ

䌚瀟

私たちに぀いおお問い合わせ私たちの仕事

サヌビス

デゞタルコンサルティングクラりドむンフラストラクチャSaaS開発AI開発ビデオ技術
ERP開発ZohoカスタマむズOdoo開発Salesforce統合カスタムCRM開発
QuickBooks統合IoT゜リュヌションブロックチェヌン開発
サむバヌセキュリティコンサルティングITサポヌト - L3

© 2026 MicrocosmWorks. 無断耇写・転茉を犁じたす。

プラむバシヌポリシヌ利甚芏玄
ケヌススタディ䞀芧に戻る
Video Creation公開日 June 22, 2026 · 曎新日 June 22, 2026

AI顔远跡ずスマヌトリフレヌミングによる瞊型動画倉換

あるコンテンツ再利甚プラットフォヌムは、話者や被写䜓を完璧に䞭倮に保ちながら、手動でのクロップやキヌフレヌム蚭定なしで、暪型 (16:9) の長尺動画を瞊型 (9:16) の短尺クリップに自動的に倉換する必芁がありたした。

プロゞェクトを盞談する
ai-face-tracking-vertical-reframing.webp
Video Creation
Domain
7
Technologies
4
Key Results
Delivered
Status

課題

暪型動画を瞊型フォヌマットに倉換するこずは、短尺コンテンツ制䜜においお最も面倒な手順の1぀でした。

  • 各クリップごずにフレヌムを手動でクロップし、再配眮するこずは時間がかかりたした
  • 耇数人での䌚話では、話者が倉わるたびに動的なリフレヌミングが必芁でした
  • 静的な䞭倮クロップでは、移動したり䞭心から倖れた堎所に座ったりする話者が途䞭で切れおしたいたした
  • 埓来の顔怜出は、䜕千ものクリップに察するリアルタむムのリフレヌミング決定には遅すぎたした
  • 異なるコンテンツタむプ (むンタビュヌ、゜ロVlog、プレれンテヌション) には、それぞれ異なるフレヌミング戊略が必芁でした

私たちの゜リュヌション

圓瀟は、動画フレヌム内の顔を怜出し、その動きを远跡し、アクティブな被写䜓を䞭倮に保぀ために瞊方向のクロップ領域を動的に調敎する、AIを搭茉した顔远跡およびスマヌトリフレヌミング゚ンゞンを構築したした。

アヌキテクチャ

  • 顔怜出: 速床を最適化したYOLOベヌスの顔怜出モデル
  • 顔远跡: 氞続的な被写䜓IDを持぀IoUベヌスのフレヌム間远跡
  • リフレヌミング゚ンゞン: 顔の䜍眮ず動きに基づいた動的なクロップ領域蚈算
  • アクティブスピヌカヌ連携: 話しおいる人物を優先するための話者怜出ずの連携
  • レンダリング: スムヌズなパン遷移を䌎うFFmpegクロップフィルタヌチェヌン

リフレヌミングパむプラむン

  1. 顔怜出 - サンプルされたフレヌム党䜓でYOLO顔怜出を実行
  2. 被写䜓远跡 - IoUベヌスの远跡を䜿甚しおフレヌム間で顔怜出をリンクする
  3. 話者優先 - アクティブスピヌカヌ怜出ず連携する堎合、話しおいる被写䜓を優先する
  4. クロップ蚈算 - 䞻芁な被写䜓の䜍眮に基づいお最適な9:16クロップ領域を決定する
  5. スムヌゞング - 䞍自然な飛びを避けるためにクロップの動きにむヌゞングを適甚する
  6. レンダリング - FFmpegがスムヌズなパン遷移を䌎う動的なクロップを適甚する

䞻な機胜

  1. 耇数被写䜓察応 - 耇数の顔を远跡し、セグメントごずに䞻芁な被写䜓を決定したす
  2. 話者認識フレヌミング - 話者怜出ず統合されおいる堎合、アクティブな話者を優先したす
  3. スムヌズなトランゞション - 被写䜓間でのむヌゞングされたパンにより、䞍自然なカットがなくなりたす
  4. コンテンツタむプ適応 - ゜ロ、むンタビュヌ、グルヌプコンテンツ向けに異なるフレヌミング戊略を提䟛したす
  5. バッチ凊理 - 1぀の長尺動画から数癟のクリップをリフレヌムできたす
  6. 手動介入なし - 怜出から最終レンダリングたで完党に自動化されおいたす

成果

時間短瞮: クリップあたりの手動クロップ時間を2〜5分削枛したした
品質: テストされたコンテンツ党䜓で、被写䜓が95%以䞊の時間で䞭倮に留たりたした
スケヌラビリティ: 人間による介入なしに、毎日䜕千ものクリップを凊理したした
クリ゚むタヌの満足床: 瞊型クリップは手動線集なしでプロフェッショナルにフレヌミングされおいるように芋えたした

技術スタック

YOLOPythonFFmpegOpenCVIoU TrackingNode.jsGPU-Accelerated Inference

caseStudyDetail.more ケヌススタディ

その他の技術実装事䟋をご芧ください

Video Creation

クロスプラットフォヌム ゜ヌシャルメディア スケゞュヌリング & パフォヌマンス分析

毎週䜕十ものショヌトフォヌムクリップを制䜜するコンテンツクリ゚むタヌは、投皿戊略を最適化するための掞察を埗ながら、単䞀のダッシュボヌドから TikTok、YouTube Shorts、Instagram Reels にコンテンツを配信するための統合されたスケゞュヌリングおよび分析システムを必芁ずしおいたした。

ケヌススタディを読む
Video Creation

グロヌバルコンテンツ配信のための倚蚀語キャプション翻蚳

囜際的な芖聎者を持぀コンテンツクリ゚むタヌは、オリゞナルの音声を維持し぀぀、ビデオキャプションを30以䞊の蚀語に翻蚳するこずでリヌチを拡倧し、䞖界䞭の芖聎者が母囜語でコンテンツを消費できるようにする必芁がありたした。

ケヌススタディを読む

よくある質問

MicrocosmWorks implemented a hybrid tracking approach that combines a lightweight face detector running every 5th frame with a KCF optical flow tracker for inter-frame predictions. When occlusion is detected via confidence score drops, the system maintains the last known trajectory with Kalman filtering and re-acquires the face within 200ms of it becoming visible again.

MicrocosmWorks built a saliency-weighted cropping algorithm that prioritizes detected faces, then text regions, then motion areas when determining the 9:16 crop window position. For multi-person scenes, the system uses a configurable priority ranking, defaulting to the active speaker or the largest face, with smooth interpolation between crop positions to avoid jarring shifts.

Yes, MicrocosmWorks implemented a fallback saliency detection mode that activates when no faces are present, using a combination of motion detection, visual attention modeling, and mouse cursor tracking for screen recordings. The system intelligently follows the most relevant content region even in purely visual or text-based footage.

MicrocosmWorks optimized the pipeline for batch workflows, achieving 8x real-time processing speed on a single NVIDIA T4 GPU, meaning a 10-minute video is reframed in approximately 75 seconds. The system supports parallel processing across multiple GPUs, scaling linearly for high-volume content operations.

MicrocosmWorks develops AI video reframing systems at rates of $25-$45/hr, with a full face tracking and smart reframing solution including model optimization, batch processing support, and API integration typically requiring 350-550 development hours. This investment eliminates the need for manual reframing editors, which typically cost $5-$15 per video.

ビゞネスの倉革の準備はできおいたすか

お客様の課題に類䌌の゜リュヌションを適甚する方法に぀いお話し合いたしょう。

お問い合わせcaseStudyDetail.viewAllCaseStudies
Video Creation

自動キャプションスタむリング動画゚クスポヌト゚ンゞン

動画クリ゚むタヌは、さたざたなスタむルやプラットフォヌムでピクセルパヌフェクトなレンダリングを䌎うプロ品質のアニメヌションキャプションを短尺動画に適甚するための、高速で信頌性の高いシステムを必芁ずしおいたした。

ケヌススタディを読む