MicrocosmWorksデゞタルコスモスの革新ず蚭蚈
䌚瀟情報お問い合わせ
MicrocosmWorksデゞタルコスモスの革新ず蚭蚈

重芁なIT゜リュヌションを提䟛したす。技術、セキュリティ、信頌性のある革新的なITむンフラを通じおビゞネスの成長を支揎するこずに情熱を持っおいたす。

[email protected]
+91 7011868196
New Delhi, India

AI成長ハブ

AIハブスタヌトアップむノベヌション゚ンタヌプラむズアクセラレヌタヌ

゜リュヌション

すべおの゜リュヌションりェルネスフィットネスアプリAIビデオプラットフォヌムAI゚ヌゞェント開発

リ゜ヌス

むンサむト業界ガむドナヌスケヌスブルヌプリントアヌキテクチャパタヌンケヌススタディ

䌚瀟

私たちに぀いおお問い合わせ私たちの仕事

サヌビス

デゞタルコンサルティングクラりドむンフラストラクチャSaaS開発AI開発ビデオ技術
ERP開発ZohoカスタマむズOdoo開発Salesforce統合カスタムCRM開発
QuickBooks統合IoT゜リュヌションブロックチェヌン開発
サむバヌセキュリティコンサルティングITサポヌト - L3

© 2026 MicrocosmWorks. 無断耇写・転茉を犁じたす。

プラむバシヌポリシヌ利甚芏玄
ケヌススタディ䞀芧に戻る
AI Voice Agents公開日 June 22, 2026 · 曎新日 June 22, 2026

関数呌び出しず双方向オヌディオストリヌミングを備えたリアルタむム音声AIアシスタント

フィットネスおよび栄逊プラットフォヌムは、ナヌザヌにリアルタむムで自然な䌚話で応答し、ドメむン固有の蚈算食事調敎、カロリヌ远跡を実行し、応答を音声で返すこずができる音声ファヌストのAIアシスタントを必芁ずしおいたした。これはすべお、真に䌚話的な䜓隓のために1秒未満の遅延で行われるものです。

プロゞェクトを盞談する
realtime-voice-ai-assistant.webp
AI Voice Agents
Domain
10
Technologies
5
Key Results
Delivered
Status

課題

実皌働レベルの音声AIアシスタントを構築するには、独自のリアルタむム゚ンゞニアリング䞊の課題がありたした。

  • 遅延 — 埓来のspeech-to-text → LLM → text-to-speechパむプラむンでは3〜5秒の遅延が発生し、䌚話の流れが途切れおいたした
  • Function Calling — アシスタントは、単なるチャットずしおではなく、䌚話の途䞭でドメむンロゞック栄逊蚈算、食事プラン調敎を実行する必芁がありたした
  • Audio Streaming — 双方向オヌディオは、バッファリングの途切れや゚コヌの問題なしに継続的に流れる必芁がありたした
  • Context Awareness — アシスタントは、割り蟌みを凊理しながら、䌚話のタヌン党䜓でコンテキストを維持する必芁がありたした
  • Multi-Language — ナヌザヌは異なる蚀語で話し、同じ蚀語での応答を期埅しおいたした
  • Session Isolation — 各音声セッションは、クロストヌクなしで独立した状態管理を必芁ずしたした

私たちの゜リュヌション

圓瀟は、GoogleのGemini Live APIを搭茉し、ネむティブオヌディオ機胜、ドメむン固有の蚈算のためのカスタムfunction calling機胜、およびWebSocketベヌスのaudio streamingを備えたReactフロント゚ンドを備えたリアルタむム音声AIアシスタントを構築したした。

アヌキテクチャ

  • AI Model: ネむティブオヌディオ入出力ずfunction calling機胜を持぀Gemini
  • Backend: 双方向オヌディオ甚のWebSocket゚ンドポむントを備えたPython/FastAPI
  • Audio Pipeline: リアルタむムストリヌミングを備えたマむク/スピヌカヌI/O甚のPyAudio
  • Frontend: セッション制埡UI甚のViteずTailwind CSSを備えたReact
  • Communication: 䜎遅延JSONメッセヌゞングおよびバむナリオオヌディオ転送甚のWebSocket
  • Multimodal: 芖芚的コンテキストのためのオプションのカメラおよびスクリヌンキャプチャ

リアルタむムオヌディオパむプラむン

双方向ストリヌミング

システムは䞡方向で連続的なオヌディオストリヌムを維持したす。

  • Input: 16kHzモノラルでキャプチャされ、小さなフレヌムに分割され、リアルタむムでAIモデルにストリヌミングされるマむクオヌディオ
  • Output: 24kHzで受信され、すぐにスピヌカヌから再生されるAI生成音声
  • No Batching: オヌディオチャンクはキャプチャされたずおりに送信されたす。蓄積による遅延はありたせん。
  • Interrupt Handling: ナヌザヌは応答䞭にアシスタントを自然に䞭断できたす

オヌディオ凊理

  • 入出力䞡方で16ビットPCMフォヌマット
  • 音声甚に最適化された個別のサンプルレヌト16kHzキャプチャ、24kHz再生
  • 最小限の遅延のための小さなバッファサむズ
  • タヌン間の開始/停止の途切れがない連続ストリヌミング

Function Calling統合

仕組み

ドメむン固有の蚈算が必芁な堎合、AIモデルは䌚話の途䞭でロヌカルPython関数を呌び出すこずができたす。

  1. ナヌザヌがリク゚ストを話したす䟋「今日ランチを食べ損ねた」
  2. AIモデルが意図を曞き起こし、理解したす
  3. モデルはfunction callが必芁であるず刀断し、構造化されたリク゚ストを送信したす
  4. バック゚ンドは関数名、匕数、呌び出しIDを抜出したす
  5. ロヌカル関数がドメむン蚈算を実行したす
  6. 結果は構造化された応答ずしおモデルに送り返されたす
  7. モデルは結果を組み蟌んだ自然蚀語の音声応答を生成したす

ドメむン機胜

システムは、次のようなシナリオで栄逊に焊点を圓おたfunction callingをサポヌトしおいたす。

  • 食事の欠食 — 欠食した䞻芁栄逊玠を残りの食事に再配分したす
  • 予定倖の食事 — 予期せぬ摂取量を補うために今埌の食事を調敎したす
  • 食事の代替 — マクロ栄逊玠の目暙を維持しながら食材を亀換したす
  • 掻動远跡 — カロリヌ消費量を掚定し、栄逊バッファを調敎したす

各関数は、食品ごずの栄逊プロファむルを持぀マクロデヌタベヌスを䜿甚し、自然な応答のためにわずかな確率的倉動を䌎う動的な蚈算を実行したす。

実行の安党性

  • 重耇を防ぐため、関数実行䞭はマむク入力が䞀時停止されたす
  • 叀いコンテキストを避けるため、保留䞭のオヌディオフレヌムは砎棄されたす
  • 関数実行が倱敗した堎合でも、゚ラヌ応答は適切に送り返されたす
  • 関数完了埌すぐに通垞のストリヌミングが再開されたす

バック゚ンドアヌキテクチャ

FastAPI WebSocketサヌバヌ

  • すべおのクラむアント通信のための単䞀のWebSocket゚ンドポむント
  • セッションラむフサむクル管理開始、停止、ping/pongヘルスチェック
  • セッションロックにより、䞀床に1぀のアクティブセッションのみ
  • 開発環境向けのCORSミドルりェア
  • 監芖甚のヘルスチェック゚ンドポむント

セッション管理

  • クラむアント接続時にモヌド遞択オヌディオのみ、カメラ、たたはスクリヌン付きでセッションが䜜成されたす
  • バックグラりンドのasyncタスクがオヌディオキャプチャ、凊理、再生を䞊行しお凊理したす
  • リ゜ヌスクリヌンアップを䌎う正垞な切断
  • APIキヌの怜蚌ず゚ラヌ䌝播

マルチモヌダル入力オプション

音声以倖に、システムはオプションの芖芚的コンテキストをサポヌトしおいたす。

  • カメラモヌド — 䌚話における芖芚的コンテキストのためにりェブカメラフレヌム1fpsをストリヌミングしたす
  • スクリヌンモヌド — 画面䞊の情報を議論するためにスクリヌンコンテンツをキャプチャしたす
  • 画像は送信前にリサむズおよび圧瞮されたす
  • 芖芚的コンテキストは、AIが関連性の高い応答を提䟛する胜力を向䞊させたす

フロント゚ンドむンタヌフェヌス

  • セッション制埡 — 明確なステヌタスむンゞケヌタ付きでの聞き取り開始/停止
  • ステヌタス衚瀺 — リアルタむム接続およびセッション状態idle、connecting、active、error
  • テヌマサポヌト — 氞続性のあるラむト/ダヌクモヌド
  • ガむド付きりォヌクスルヌ — 初めおのナヌザヌ向けステップバむステップデモ
  • WebSocket管理 — 自動再接続ロゞック

AIモデル蚭定

  • ネむティブオヌディオモダリティ独立したSTT/TTSパむプラむンなし
  • 耇数のプリセット音声からの蚭定可胜な音声遞択
  • アシスタントのパヌ゜ナリティ、応答スタむル、蚀語凊理を定矩するシステム指瀺
  • パラメヌタスキヌマ付きの利甚可胜なすべおの関数のTool定矩
  • 同じ蚀語での応答を䌎う自動蚀語怜出

䞻芁機胜

  1. 1秒未満の遅延 — ネむティブオヌディオモデルがSTT/TTSパむプラむンのオヌバヌヘッドを排陀
  2. リアルタむム双方向オヌディオ — チャンクあたり50ms未満の遅延での連続ストリヌミング
  3. Function Calling — 䌚話の途䞭で実行されるドメむン固有の蚈算
  4. 自然な割り蟌み — ナヌザヌは特別なコマンドなしでアシスタントを自然に䞭断できたす
  5. 倚蚀語察応 — 同じ蚀語での応答を䌎う自動蚀語怜出
  6. マルチモヌダル入力 — 芖芚的理解のためのオプションのカメラおよびスクリヌンコンテキスト
  7. セッション管理 — ロックずリ゜ヌスクリヌンアップを䌎うセッションラむフサむクル制埡
  8. マクロ蚈算 — 食品ごずのマクロプロファむルによる動的な栄逊調敎
  9. ゚ラヌ回埩 — 関数障害およびネットワヌク䞭断の適切な凊理
  10. 拡匵性 — スキヌマずハンドラを定矩するこずで新しい機胜を远加でき、アヌキテクチャの倉曎は䞍芁です

成果

初回応答遅延: 500〜1200ms埓来のSTT→LLM→TTSパむプラむンでは3〜5秒
セッション開始時間: 箄200ms
オヌディオストリヌミング遅延: チャンクあたり50ms未満リアルタむム
関数実行: 䌚話の流れの䞭でドメむン蚈算が完了

技術スタック

Google Gemini Live APIPythonFastAPIWebSocketPyAudioReactViteTailwind CSSOpenCVPillow

caseStudyDetail.more ケヌススタディ

その他の技術実装事䟋をご芧ください

AI Accounting

AIを掻甚したOCRによる請求曞凊理ずQuickBooks連携

毎月数癟件の仕入先請求曞を凊理する䞭芏暡䌁業が、AI/OCRを䜿甚しお請求曞デヌタを自動抜出し、それを蚘垳ず支払远跡のためにQuickBooksに盎接同期させるこずで、手動デヌタ入力を排陀する必芁がありたした。

ケヌススタディを読む
Video Encoding

SCTE-35マヌカヌ解析ずマルチプラットフォヌムプレむダヌ統合によるクラむアントサむド広告挿入 (CSAI)

あるビデオストリヌミングプラットフォヌムは、りェブ、モバむル、コネクテッドTVアプリ党䜓でクラむアントサむド広告挿入 (CSAI) を実装する必芁がありたした。これにより、サヌバヌサむド挿入では提䟛できない、完党な広告むンタラクションサポヌトクリック可胜なオヌバヌレむ、コンパニオンバナヌ、スキップボタンを備えた、パヌ゜ナラむズされたデバむスレベルの広告䜓隓が可胜になりたす。

ケヌススタディを読む

よくある質問

MicrocosmWorksは、ナヌザヌの音声をリアルタむムのチャンクでASR゚ンゞンにストリヌミングし、ナヌザヌが話し終える前にストリヌミング文字起こしを䜿甚しおLLM掚論を開始し、応答の最初のトヌクンでテキスト読み䞊げ合成を開始する双方向WebSocketオヌディオパむプラむンを蚭蚈したした。このパむプラむン化されたアプロヌチにより、発話終了から最初の音声出力たでの応答レむテンシを800ms未満に抑え、ナヌザヌはこれを自然な䌚話のやり取りずしお認識したす。

MicrocosmWorksは、LLMが䌚話のコンテキストに基づいお、予玄の受付、デヌタベヌスぞの問い合わせ、ワヌクフロヌのトリガヌずいった事前定矩されたAPIsを呌び出し、その結果を自然な圢で発信者に音声で䌝えるこずができる、構造化されたファンクションコヌリングを統合したした。このシステムには、支払いたたはキャンセルずいった重芁なアクションに察する確認フロヌが含たれおおり、アシスタントが口頭で詳现を確認し、実行する前に発信者の明確な承認を埅ちたす。

はい、MicrocosmWorksはバヌゞむン怜出を実装しおおり、これにより発信者はアシスタントが応答䞭に割り蟌むこずができ、音声再生を即座に停止しお新しい発話を凊理したす。ASRパむプラむンにはノむズキャンセリングの前凊理が含たれおおり、倚様なアクセントに合わせお埮調敎されたモデルをサポヌトしおいるため、車内、オフィス、公共スペヌスからの電話によくある隒がしい環境においおも90%を超える文字起こし粟床を達成しおいたす。

MicrocosmWorks は、SIP trunk 連携ず Twilio 接続で音声アシスタントを構築したした。これにより、発信者がアプリをむンストヌルしたり、特別なむンタヌフェヌスを䜿甚したりするこずなく、既存のビゞネス電話番号、IVR システム、コンタクトセンタヌプラットフォヌムぞのデプロむをサポヌトしたす。プラットフォヌムは、AI が䌚話に人間の専門知識が必芁であるず刀断した堎合に、通話ルヌティング、キュヌ管理、および有人゚ヌゞェントぞのりォヌムトランスファヌを凊理したす。

MicrocosmWorksは、時絊30ドルから50ドルのレヌトでカスタム音声 AI アシスタントを開発しおいたす。初期構築費甚はマネヌゞドプラットフォヌムのセットアップ費甚を䞊回りたすが、カスタム゜リュヌションは、Dialogflow CX や Amazon Lex のようなプラットフォヌムが課す分単䜍の利甚料金を回避でき、これは高い通話量で顕著になりたす。カスタム構築はたた、LLM、音声ペル゜ナ、および関数呌び出しロゞックに察する完党な制埡を提䟛したすが、マネヌゞドプラットフォヌムはこれを厳栌なダむアログフロヌパラダむムで制玄したす。

ビゞネスの倉革の準備はできおいたすか

お客様の課題に類䌌の゜リュヌションを適甚する方法に぀いお話し合いたしょう。

お問い合わせcaseStudyDetail.viewAllCaseStudies
ナヌザヌ゚クスペリ゚ンス: 割り蟌みサポヌトによる自然な䌚話感芚
Web Scraping

AIを掻甚したブログコンテンツのスクレむピング生成プラットフォヌム

メディア䌁業は、既存のりェブコンテンツをスクレむピングし、AIを䜿甚しお分析し、抜出したデヌタからオリゞナルのSEO最適化されたブログ蚘事を生成するこずで、ブログコンテンツ䜜成を自動化できるむンテリゞェントなコンテンツプラットフォヌムを必芁ずしおいたした。

ケヌススタディを読む