Question 1

バッチワークロードにおいて、オンオフスケーリングは常時稼働のインフラストラクチャと比較して、クラウドコストをどの程度削減できますか？

Accepted Answer

MicrocosmWorks のクライアントは、バッチ処理が多い、または定期的なワークロードの場合、オンオフスケーリングを導入することで、通常60〜80%のクラウドコスト削減を実現しています。これは、コンピューティングリソースが24時間365日ではなく、アクティブな処理期間中のみ実行されるためです。当社は実際の利用テレメトリーに基づいてスケーリングポリシーを設計します。例えば、毎日4時間稼働するデータ処理パイプラインは、24時間すべてではなく、その4時間分だけを支払うことになります。当社のアーキテクトは、導入を開始する前に、ディスカバリーフェーズでワークロードパターンを分析し、正確なコスト削減額を予測します。

Question 2

オンオフスケーリングにおけるコールドスタートのペナルティとは何ですか？また、MicrocosmWorks はそれをどのように最小化しますか？

Accepted Answer

コールドスタート時間は、事前にウォームアップされたノードプール上のコンテナ化されたアプリケーションでは2〜3秒ですが、特殊な GPU インスタンスや大規模なモデルのロードを必要とするワークロードでは5〜10分かかります。MicrocosmWorks はこの遅延を最小限に抑えるためにいくつかの手法を使用します。当社は、過去のトラフィックパターンとスケジュールされたイベントを使用して、予測される需要の前にリソースを起動する予測スケーリングを実装しています。また、レイテンシーに敏感なワークロードには、コンテナイメージの事前プルとウォームプール予約を使用します。コールドスタートを許容できないアプリケーションに対しては、需要が発生したときに積極的にスケールアップする最小限のウォームベースラインを維持します。

Question 3

予測不能なトラフィックスパイクを持つアプリケーションに対して、オンオフスケーリングはどのように機能しますか？

Accepted Answer

MicrocosmWorks は、キューの深さ、CPU 使用率、またはカスタムアプリケーションメトリクスによってトリガーされる積極的なスケールアップポリシーと、スラッシングを避けるためのクールダウン期間を含む、より段階的なスケールダウンポリシーを組み合わせたリアクティブなオートスケーリングを実装しています。スケールアップイベント中にオーバープロビジョニングバッファを設定し、システムが一度に1つのインスタンスの需要を追いかけるのではなく、継続的な成長を予測するようにします。フラッシュセールやバイラルイベントのような真に予測不能なスパイクに対しては、お客様のマーケティングまたは運用カレンダーからのイベント駆動型トリガーを使用してキャパシティを事前にプロビジョニングします。

Question 4

オンオフスケーリングはデータベースに適用できますか、それともステートレスなコンピューティングにのみ実用的ですか？

Accepted Answer

MicrocosmWorks は、Aurora Serverless、Neon、PlanetScale のようなサーバーレスデータベースサービスを利用して、データベースにオンオフスケーリングを適用します。これらのサービスは、アイドル期間中にコンピューティングをゼロにスケーリングし、ストレージは永続的で即時利用可能な状態に保ちます。サーバーレスデータベースを使用できないステートフルなワークロードに対しては、クエリ負荷に基づいてレプリカを追加および削除するリードレプリカスケーリングを実装し、最小限のプライマリインスタンスは常に稼働させます。このハイブリッドアプローチにより、クライアントはシャットダウンおよび再起動サイクル中にデータベースの状態を管理する複雑さなしに、データ層のスケーリングによるコストメリットを得ることができます。

Question 5

オンオフスケーリングが停止を引き起こさないようにするため、MicrocosmWorks はどのような監視とアラートを設定していますか？

Accepted Answer

MicrocosmWorks は、包括的なスケーリング可観測性を展開しています。Grafana または Datadog ダッシュボードを使用して、インスタンス数、スケーリングイベントのレイテンシー、失敗したスケーリング試行、および要求された容量と実際の容量の間のギャップをリアルタイムで追跡します。スケーリングの失敗、スケーリングの上限が低すぎることを示唆する継続的な高利用率、および暴走スケーリングを示すコスト異常に対して、マルチチャネルアラートを設定します。当社のランブックには、クラウドプロバイダーのインスタンス制限に達したり、特定の可用性ゾーンで容量不足エラーが発生したりするなどの一般的な障害モードに対する自動修復が含まれています。

レイヤー	テクノロジー
コンピューティング	AWS EC2 Spot (G5/P4), GCP Preemptible (A2/L4), RunPod Serverless, Modal
オーケストレーション	Kubernetes (オートスケーリングのためのKarpenter), AWS Batch, カスタムジョブオーケストレーター
ジョブキュー	AWS SQS, BullMQ (Redis), Temporal, Celery
ストレージ	S3 (チェックポイント, モデルアーティファクト), NVMe (モデルキャッシュ), EFS (共有ワークスペース)
モニタリング	CloudWatch/Prometheus (キューの深さ, インスタンス利用率, ジョブレイテンシ), カスタムコストダッシュボード

使用すべきケース	避けるべきケース
ワークロードがバースト性である場合 — ピーク需要が平均需要の5倍以上	トラフィックが安定していて予測可能である場合 — 適切なサイズのReserved Instanceの方が安価
アイドル時に高価になるGPU/高コンピューティングジョブ	サーバーレス（Lambda）に適した軽量なCPU処理ワークロード
コールドプールプロビジョニングのために1〜5分のコールドスタートを許容できるジョブ	サブ秒のジョブ開始レイテンシが必要な場合 — 常時稼働のインフラストラクチャが必要
コスト最適化が主要な懸念事項であり、スポット料金で60〜90%の節約が見込まれる場合	スポット停止が、チェックポイントでは軽減できないデータ損失を引き起こす場合

オンオフスケーリングアーキテクチャ

必要なとき

パターンの概要

Related Architecture Patterns

クラウドネイティブインフラストラクチャ

よくある質問

このアーキテクチャの実装に支援が必要ですか？

参照アーキテクチャ

設計上の決定事項とトレードオフ

テクノロジーの選択

使用すべきケース / 避けるべきケース

私たちのアプローチ

関連する設計図

関連する導入事例

セキュリティ・ファースト・アーキテクチャ

Serverless優先アーキテクチャ