Video Creation公開日 June 22, 2026 · 更新日 June 22, 2026

AI顔追跡とスマートリフレーミングによる縦型動画変換

あるコンテンツ再利用プラットフォームは、話者や被写体を完璧に中央に保ちながら、手動でのクロップやキーフレーム設定なしで、横型 (16:9) の長尺動画を縦型 (9:16) の短尺クリップに自動的に変換する必要がありました。

プロジェクトを相談する

Video Creation

Domain

Technologies

Key Results

Delivered

Status

課題

横型動画を縦型フォーマットに変換することは、短尺コンテンツ制作において最も面倒な手順の1つでした。

各クリップごとにフレームを手動でクロップし、再配置することは時間がかかりました
複数人での会話では、話者が変わるたびに動的なリフレーミングが必要でした
静的な中央クロップでは、移動したり中心から外れた場所に座ったりする話者が途中で切れてしまいました
従来の顔検出は、何千ものクリップに対するリアルタイムのリフレーミング決定には遅すぎました
異なるコンテンツタイプ (インタビュー、ソロVlog、プレゼンテーション) には、それぞれ異なるフレーミング戦略が必要でした

私たちのソリューション

当社は、動画フレーム内の顔を検出し、その動きを追跡し、アクティブな被写体を中央に保つために縦方向のクロップ領域を動的に調整する、AIを搭載した顔追跡およびスマートリフレーミングエンジンを構築しました。

アーキテクチャ

顔検出: 速度を最適化したYOLOベースの顔検出モデル
顔追跡: 永続的な被写体IDを持つIoUベースのフレーム間追跡
リフレーミングエンジン: 顔の位置と動きに基づいた動的なクロップ領域計算
アクティブスピーカー連携: 話している人物を優先するための話者検出との連携
レンダリング: スムーズなパン遷移を伴うFFmpegクロップフィルターチェーン

リフレーミングパイプライン

顔検出 - サンプルされたフレーム全体でYOLO顔検出を実行
被写体追跡 - IoUベースの追跡を使用してフレーム間で顔検出をリンクする
話者優先 - アクティブスピーカー検出と連携する場合、話している被写体を優先する
クロップ計算 - 主要な被写体の位置に基づいて最適な9:16クロップ領域を決定する
スムージング - 不自然な飛びを避けるためにクロップの動きにイージングを適用する
レンダリング - FFmpegがスムーズなパン遷移を伴う動的なクロップを適用する

主な機能

複数被写体対応 - 複数の顔を追跡し、セグメントごとに主要な被写体を決定します
話者認識フレーミング - 話者検出と統合されている場合、アクティブな話者を優先します
スムーズなトランジション - 被写体間でのイージングされたパンにより、不自然なカットがなくなります
コンテンツタイプ適応 - ソロ、インタビュー、グループコンテンツ向けに異なるフレーミング戦略を提供します
バッチ処理 - 1つの長尺動画から数百のクリップをリフレームできます
手動介入なし - 検出から最終レンダリングまで完全に自動化されています

成果

時間短縮: クリップあたりの手動クロップ時間を2〜5分削減しました

品質: テストされたコンテンツ全体で、被写体が95%以上の時間で中央に留まりました

スケーラビリティ: 人間による介入なしに、毎日何千ものクリップを処理しました

クリエイターの満足度: 縦型クリップは手動編集なしでプロフェッショナルにフレーミングされているように見えました

技術スタック

YOLOPythonFFmpegOpenCVIoU TrackingNode.jsGPU-Accelerated Inference

caseStudyDetail.more ケーススタディ

その他の技術実装事例をご覧ください

Video Creation

クロスプラットフォームソーシャルメディアスケジューリング & パフォーマンス分析

毎週何十ものショートフォームクリップを制作するコンテンツクリエイターは、投稿戦略を最適化するための洞察を得ながら、単一のダッシュボードから TikTok、YouTube Shorts、Instagram Reels にコンテンツを配信するための統合されたスケジューリングおよび分析システムを必要としていました。

ケーススタディを読む

Video Creation

グローバルコンテンツ配信のための多言語キャプション翻訳

国際的な視聴者を持つコンテンツクリエイターは、オリジナルの音声を維持しつつ、ビデオキャプションを30以上の言語に翻訳することでリーチを拡大し、世界中の視聴者が母国語でコンテンツを消費できるようにする必要がありました。

ケーススタディを読む

よくある質問

MicrocosmWorks は、5フレームごとに実行される軽量顔検出器と、フレーム間の予測のための KCF optical flow tracker を組み合わせたハイブリッド追跡アプローチを実装しました。信頼度スコアの低下によってオクルージョン（遮蔽）が検出された場合、システムは Kalman filtering を用いて最後に判明した軌跡を維持し、再び可視になってから 200ms 以内に顔を再取得します。

MicrocosmWorksは、9:16のクロップウィンドウ位置を決定する際に、検出された顔、次にテキスト領域、次に動きのある領域を優先する顕著性重み付けクロッピングアルゴリズムを構築しました。複数人が映るシーンでは、システムは設定可能な優先順位付けを使用し、話者または最大の顔をデフォルトとし、クロップ位置間のスムーズな補間により不快な切り替えを回避します。

はい、MicrocosmWorksは、顔が存在しない場合にアクティブになるフォールバック顕著性検出モードを実装しました。このモードは、画面録画の場合、モーション検出、視覚的注意モデリング、およびマウスポインタ追跡の組み合わせを使用します。システムは、純粋な視覚的またはテキストベースの映像でも、最も関連性の高いコンテンツ領域をインテリジェントに追跡します。

MicrocosmWorks は、バッチワークフロー向けにパイプラインを最適化し、単一の NVIDIA T4 GPU 上でリアルタイムの8倍の処理速度を達成しました。つまり、10分間の動画は約75秒でリフレーミングされます。このシステムは複数の GPU 間での並列処理をサポートしており、高いボリュームのコンテンツ運用向けにリニアにスケールします。

MicrocosmWorksは、AI動画リフレーミングシステムを時給$25〜$45の料金で開発しています。モデル最適化、バッチ処理サポート、およびAPI統合を含む完全な顔追跡およびスマートリフレーミングソリューションは、通常350〜550時間の開発時間を必要とします。この投資により、通常動画1本あたり$5〜$15かかる手動のリフレーミングエディターの必要がなくなります。

ビジネスの変革の準備はできていますか？

お客様の課題に類似のソリューションを適用する方法について話し合いましょう。

お問い合わせ caseStudyDetail.viewAllCaseStudies

AI顔追跡とスマートリフレーミングによる縦型動画変換

課題

私たちのソリューション

アーキテクチャ

リフレーミングパイプライン

主な機能

成果

技術スタック

caseStudyDetail.more ケーススタディ

クロスプラットフォーム ソーシャルメディア スケジューリング & パフォーマンス分析

グローバルコンテンツ配信のための多言語キャプション翻訳

よくある質問

ビジネスの変革の準備はできていますか？

自動キャプションスタイリング＆動画エクスポートエンジン

クロスプラットフォームソーシャルメディアスケジューリング & パフォーマンス分析