スケーラブルで費用対効果の高いAI推論のためのRunPod活用
AIを活用したビデオ分析プラットフォームは、複数の同時ビデオストリームにわたるリアルタイムの物体検出と推論のために、高性能なGPUコンピューティングを必要としていました。しかし、24時間年中無休で稼働する専用GPUサーバーの法外なコストは避けたいと考えていました。
プロジェクトを相談する
課題
AIワークロード向けGPUインフラストラクチャは、コストとパフォーマンスのジレンマを提示していました。
- 主要クラウドプロバイダーの専用GPUサーバーは、インスタンスあたり月額数千ドルのコストがかかる
- ワークロードは変動的であり、ピーク時間帯にはオフピーク時間帯の4〜8倍のGPU容量が必要とされる
- サーバーレスGPUプロバイダーにおけるコールドスタート時間は、リアルタイム推論には遅すぎた(30〜60秒)
- モデルのロードには、かなりのVRAMと起動時間が必要だった
- 単一のクラウドプロバイダーへのベンダーロックインは、交渉力とフェイルオーバーの選択肢を制限した
私たちのソリューション
当社は、GPUコンピューティング層としてRunPodを採用し、そのオンデマンドおよびスポットGPUインスタンスを使用して、従来のクラウドGPUコストのほんの一部でAI推論ワークロードを実行しました。コールドスタートを最小限に抑えるため、ウォームインスタンスアーキテクチャを採用しています。
アーキテクチャ
- Compute: 推論ワークロード用のRunPod GPU pod(ワークロードごとにGPU層を選択)
- Orchestration: プライマリクラウド上のFastAPIオーケストレーターがRunPod podを管理
- Networking: プライマリインフラストラクチャとRunPodインスタンス間のセキュアトンネル
- Model Storage: 高速起動のためにモデルが組み込まれた事前構築済みDockerイメージ
- Monitoring: podの可用性のためのヘルスチェックと自動再起動
インフラストラクチャ設計
Pod構成
- GPU Selection: ワークロードごとに費用対効果の高いGPU層を選択し、主要クラウドプロバイダーの同等GPUインスタンスと比較して約85〜90%のコスト削減を達成
- Docker Templates: 推論用にAIモデルが事前ロードされたカスタムコンテナ
- Persistent Storage: モデルの重みと設定ファイル用のネットワークボリューム
- Environment Variables: ストリームエンドポイント、APIキー、および機能フラグのための動的構成
ウォームインスタンス戦略
リクエストごとにpodをコールドスタートさせる代わりに、運用時間中はウォームインスタンスを維持します。
- Scheduled Scaling — ピーク時間前にpodを起動し、オフアワー中に停止
- Pre-Loaded Models — コンテナ起動時に推論エンジンをロードし、すぐに利用可能に
- Health Probes — オーケストレーターがRunPod podを定期的に監視し、準備状況を確認
- Auto-Recovery — 不健全なpodはRunPod APIを介して自動的に交換される
クロスクラウド通信
- Primary Cloud: APIサーバー、データベース、レコーディングワーカー
- GPU Cloud (RunPod): AI推論、物体検出、トラッキング
- Data Flow: ビデオフレームはプライマリクラウドからRunPodに推論のために送信され、検出結果はWebSocketを介して返される
- Timestamp Sync: クラウド間のクロックスキューを処理するためのPTSベースの同期
コスト最適化
RunPodの料金モデルは、主要クラウドプロバイダーの同等GPUインスタンスと比較して、大幅なコスト削減をもたらしました。
- On-Demand: GPUコンピューティングの時間あたりのコストを約85〜90%削減
- Spot Pricing: コミュニティクラウドでの重要度の低いバッチ処理に対してさらに50%の節約
- Scheduled Shutdown: 運用時間に基づいた自動停止/開始により、さらにコストを削減
- Right-Sizing: 過剰なプロビジョニングではなく、実際のVRAM要件に合ったGPU層を選択
- Multi-Pod Distribution: 1つの大規模インスタンスではなく、より小さく安価な複数のGPUにストリームを分散
デプロイワークフロー
- Build — すべてのモデル、依存関係、およびアプリケーションコードを含むDockerイメージ
- Push — イメージをコンテナレジストリにプッシュ
- Deploy — RunPod APIが指定されたGPU、イメージ、およびボリュームマウントを持つpodを作成
- Configure — 特定のデプロイメント向けに環境変数を設定
- Monitor — オーケストレーターがpodの健全性を検証し、推論リクエストのルーティングを開始
- Scale — 負荷が増加すると、APIを介して追加のpodが起動される
主要機能
- Significant Cost Reduction — 主要クラウドGPUインスタンスと比較して85〜90%の大幅なコスト削減
- Pre-Built Containers — 30秒未満の起動時間のために、Dockerイメージにモデルが組み込まれている
- API-Driven Scaling — 需要に基づいたプログラムによるpodの作成/破棄
- Multi-GPU Support — ワークロード要件に応じて複数のGPU層が利用可能
- Spot Instance Fallback — 重要度の低いワークロードは割引されたコミュニティクラウドで実行
- Cross-Cloud Architecture — GPUコンピューティングがプライマリインフラストラクチャから切り離されている
成果
技術スタック
caseStudyDetail.more ケーススタディ
その他の技術実装事例をご覧ください
AIおよびビデオ処理ワークロードのためのオンオフスケーリングパターン
AIを活用したビデオ処理プラットフォームは、オフピーク時のジョブはゼロから、ピーク時には数百の並行ビデオ処理およびAI推論タスクまで、非常に変動の大きいワークロードを処理する必要がありましたが、アイドル状態のGPUおよびコンピューティングリソースに対する費用を支払うことなくこれを実現しました。
AIを活用したOCRによる請求書処理とQuickBooks連携
毎月数百件の仕入先請求書を処理する中規模企業が、AI/OCRを使用して請求書データを自動抽出し、それを記帳と支払追跡のためにQuickBooksに直接同期させることで、手動データ入力を排除する必要がありました。
よくある質問
MicrocosmWorks の調査によると、AI inference workloads において、RunPod は同等の AWS または GCP インスタンスよりも 50-70% 低いコストで GPU compute を提供します。これは主に、RunPod が汎用的な cloud compute ではなく、GPU workloads に特化して最適化された serverless および spot-like pricing model で運用されているためです。トレードオフとして、infrastructure management tooling や geographic regions の少なさがありますが、MicrocosmWorks は、job queuing、health monitoring、automatic failover を処理するカスタム orchestration layer を構築することで、これを補完しました。
MicrocosmWorksはRunPod上にサーバーレスエンドポイントアーキテクチャを実装しました。これにより、GPUワーカーは、受信ジョブキューの深さに応じてゼロから設定された最大値まで自動的にスケーリングされます。つまり、処理需要がないときは費用が発生しません。このシステムは、RunPodのコールドスタート最適化を利用しており、事前にウォームアップされたコンテナイメージを使用することで、ゼロからのスケーリング時の遅延を最小限に抑えます。これにより、アイドル期間後に初回推論レイテンシが15~30秒に達し、これは従来のクラウドGPUインスタンスでの2~5分と比較して大幅な改善です。
MicrocosmWorksは、RunPodのインフラストラクチャ上で、単一のA4000 GPU上の軽量なコンピュータービジョン分類器から、A100 80GBインスタンスを使用したマルチGPUセットアップを必要とする大規模言語モデルまで、幅広いモデルを展開してきました。このプラットフォームは、PyTorch、TensorFlow、ONNX、およびTensorRTで最適化されたモデルを含む、Dockerコンテナ内で動作するあらゆるモデルをサポートしており、MicrocosmWorksはコールドスタート時間を最小限に抑えるために、すべての依存関係がプリインストールされたカスタムDockerイメージを構築しています。
MicrocosmWorksは、機密入力データがRunPodワーカーへの送信前に暗号化され、各ジョブの後に破棄される一時的なコンテナで処理され、クライアントに返される前に結果が暗号化されるセキュリティアーキテクチャを実装しています。RunPodインスタンスでは永続ストレージは使用されず、転送中のすべてのデータはTLS 1.3を使用し、RunPodのシステムに保存されるジョブメタデータには機密性の高い内容は含まれず、ジョブIDとステータス情報のみが含まれます。
MicrocosmWorksは、RunPod推論パイプラインを開発レート$25~$40/時間でセットアップします。カスタムDockerイメージ、オートスケーリング設定、モニタリング、API統合を含む本番環境対応のデプロイメントは、通常2~4週間で提供されます。継続的なRunPodの計算コストはお客様のワークロードに依存しますが、通常、同等のAWS SageMakerまたはGCP Vertex AIデプロイメントよりも50~70%低くなります。このため、RunPodはAIインフラストラクチャコストを最適化したいスタートアップ企業や中堅企業にとって特に魅力的です。