RunPodを活用した、スケーラブルで費用対効果の高いAI推論
AIを活用したビデオ分析プラットフォームは、24時間年中無休で稼働する専用GPUサーバーの法外なコストをかけることなく、複数の同時ビデオストリームにわたるリアルタイムのオブジェクト検出と推論のために、高性能なGPUコンピューティングを必要としていました。
プロジェクトを相談する
課題
AIワークロードのためのGPUインフラストラクチャは、コストとパフォーマンスのジレンマを提示しました:
- 主要クラウドプロバイダーの専用GPUサーバーは、インスタンスあたり月数千ドルかかります
- ワークロードは変動的でした — ピーク時にはオフピーク時の4〜8倍のGPU容量が必要でした
- サーバーレスGPUプロバイダーでのコールドスタート時間は、リアルタイム推論には遅すぎました(30〜60秒)
- モデルの読み込みには、かなりのVRAMと起動時間が必要でした
- 単一のクラウドプロバイダーへのベンダーロックインは、交渉力とフェイルオーバーの選択肢を制限しました
私たちのソリューション
当社はGPUコンピューティング層としてRunPodを採用し、そのオンデマンドおよびスポットGPUインスタンスを使用して、従来のクラウドGPUコストの数分の1でAI推論ワークロードを実行しました。また、コールドスタートを最小限に抑えるためのウォームインスタンスアーキテクチャを備えています。
アーキテクチャ
- コンピューティング: 推論ワークロード用のRunPod GPU Pods、ワークロードごとにGPUティアを選択
- オーケストレーション: プライマリークラウド上のFastAPIオーケストレーターがRunPod Podsを管理
- ネットワーク: プライマリーインフラストラクチャとRunPodインスタンス間のセキュアトンネル
- モデルストレージ: 高速起動のためにモデルが組み込まれた事前構築済みDockerイメージ
- モニタリング: Podの可用性のためのヘルスチェックと自動再起動
インフラストラクチャ設計
Pod構成
- GPU選択: ワークロードごとに費用対効果の高いGPUティアを選択し、同等の主要クラウドプロバイダーのGPUインスタンスと比較して約85〜90%のコスト削減を達成
- Dockerテンプレート: 推論用にAIモデルが事前にロードされたカスタムコンテナ
- 永続ストレージ: モデルの重みと構成ファイル用のネットワークボリューム
- 環境変数: ストリームエンドポイント、APIキー、および機能フラグの動的構成
ウォームインスタンス戦略
リクエストごとにPodをコールドスタートする代わりに、稼働時間中はウォームインスタンスを維持します:
- スケジュールされたスケーリング — ピーク時間前にPodを起動し、オフピーク時に停止
- プリロードされたモデル — コンテナ起動時に推論エンジンがロードされ、すぐに利用可能
- ヘルスプローブ — オーケストレーターはRunPod Podsを定期的に監視し、準備状況を確認します
- 自動復旧 — 異常なPodはRunPod APIを介して自動的に置き換えられます
クロスクラウド通信
- プライマリークラウド: APIサーバー、データベース、録画ワーカー
- GPUクラウド (RunPod): AI推論、オブジェクト検出、追跡
- データフロー: ビデオフレームはプライマリークラウドからRunPodに推論のために送信され、検出結果はWebSocketを介して返されます
- タイムスタンプ同期: クラウド間のクロックスキューを処理するためのPTSベースの同期
コスト最適化
RunPodの料金モデルは、主要クラウドプロバイダーの同等のGPUインスタンスと比較して、大幅なコスト削減をもたらしました:
- オンデマンド: GPUコンピューティングの1時間あたりのコストを約85〜90%削減
- スポット料金: コミュニティクラウドでの重要度の低いバッチ処理の場合、さらに50%の削減
- スケジュールされたシャットダウン: 稼働時間に基づく自動停止/起動は、さらなるコスト削減につながります
- 適切なサイジング: 過剰なプロビジョニングではなく、実際のVRAM要件に合わせたGPUティアを選択
- マルチPod分散: 1つの大きなインスタンスではなく、ストリームをより小さく安価なGPUに分散
デプロイワークフロー
- ビルド — すべてのモデル、依存関係、アプリケーションコードを含むDockerイメージ
- プッシュ — イメージをコンテナレジストリにプッシュ
- デプロイ — RunPod APIが、指定されたGPU、イメージ、ボリュームマウントを使用してPodを作成
- 構成 — 特定のデプロイメントのために環境変数を設定
- 監視 — オーケストレーターがPodの健全性を確認し、推論リクエストのルーティングを開始
- スケーリング — 負荷が増加するとAPIを介して追加のPodを起動
主な機能
- 大幅なコスト削減 — 同等の主要クラウドGPUインスタンスと比較して85〜90%の削減
- 事前構築済みコンテナ — モデルがDockerイメージに組み込まれているため、30秒未満で起動
- API駆動型スケーリング — 需要に基づいたプログラムによるPodの作成/破棄
- マルチGPUサポート — ワークロードの要件に応じて複数のGPUティアが利用可能
- スポットインスタンスのフォールバック — 重要度の低いワークロードは割引されたコミュニティクラウドで実行
- クロスクラウドアーキテクチャ — GPUコンピューティングはプライマリーインフラストラクチャから分離
成果
技術スタック
caseStudyDetail.more ケーススタディ
その他の技術実装事例をご覧ください
AIおよびビデオ処理ワークロードのためのオンオフスケーリングパターン
AIを活用したビデオ処理プラットフォームは、オフピーク時のジョブはゼロから、ピーク時には数百の並行ビデオ処理およびAI推論タスクまで、非常に変動の大きいワークロードを処理する必要がありましたが、アイドル状態のGPUおよびコンピューティングリソースに対する費用を支払うことなくこれを実現しました。
AIを活用したOCRによる請求書処理とQuickBooks連携
毎月数百件の仕入先請求書を処理する中規模企業が、AI/OCRを使用して請求書データを自動抽出し、それを記帳と支払追跡のためにQuickBooksに直接同期させることで、手動データ入力を排除する必要がありました。
よくある質問
MicrocosmWorksによると、RunPodはAI推論ワークロード向けに、同等のAWSまたはGCPインスタンスと比較して50〜70%低いコストでGPUコンピューティングを提供します。これは主に、RunPodが汎用クラウドコンピューティングではなく、GPUワークロードに特化して最適化されたサーバーレスかつスポットのような料金モデルで運用されているためです。トレードオフとして、インフラ管理ツールが少なく、地理的リージョンも限られますが、MicrocosmWorksはジョブキューイング、ヘルスモニタリング、自動フェイルオーバーを処理するカスタムオーケストレーションレイヤーを構築することでこれを補いました。
MicrocosmWorksは、RunPod上にサーバーレスエンドポイントアーキテクチャを実装しました。これにより、受信するジョブキューの深さに応じてGPUワーカーがゼロから設定された最大値まで自動的にスケーリングされるため、処理需要がない場合は費用は発生しません。このシステムは、RunPodのコールドスタート最適化と事前にウォームアップされたコンテナイメージを使用することで、ゼロからのスケーリング時の遅延を最小限に抑え、アイドル期間後15〜30秒の初回推論レイテンシを達成しています。これは、従来のクラウドGPUインスタンスでの2〜5分と比較して大幅な短縮です。
MicrocosmWorksは、RunPodのインフラストラクチャ上で、単一のA4000 GPUを使用する軽量なコンピュータービジョン分類器から、A100 80GBインスタンスを使用したマルチGPUセットアップを必要とする大規模言語モデルまで、幅広いモデルを展開してきました。このプラットフォームは、PyTorch、TensorFlow、ONNX、TensorRTに最適化されたモデルを含む、Dockerコンテナで動作するあらゆるモデルをサポートしており、MicrocosmWorksはコールドスタート時間を最小限に抑えるために、すべての依存関係をプリインストールしたカスタムDockerイメージを構築しています。
MicrocosmWorksは、機密性の高い入力データがRunPodワーカーへの送信前に暗号化され、各ジョブ後に破棄される一時的なコンテナで処理され、結果がクライアントに戻される前に暗号化されるというセキュリティアーキテクチャを実装しています。RunPodインスタンスでは永続ストレージは使用されず、転送中のすべてのデータはTLS 1.3を使用し、RunPodのシステムに保存されるジョブメタデータには機密性の高いコンテンツは含まれず、ジョブIDとステータス情報のみが含まれます。
MicrocosmWorksは、RunPod推論パイプラインを開発レート$25〜$40/時でセットアップし、カスタムDockerイメージ、オートスケーリング設定、モニタリング、API統合を含む本番環境対応のデプロイメントは通常2〜4週間で提供されます。継続的なRunPodのコンピューティングコストはワークロードによって異なりますが、同等のAWS SageMakerまたはGCP Vertex AIデプロイメントと比較して通常50〜70%低く、AIインフラコストを最適化したいスタートアップ企業や中堅企業にとってRunPodは特に魅力的です。