MicrocosmWorksInnover et Architecturer le Cosmos Numérique
Ă€ proposContact
MicrocosmWorksInnover et architecturer des cosmos numériques

Fournir des solutions informatiques qui comptent. Nous sommes passionnés par la technologie, la sécurité et aidons les entreprises à croître grâce à une infrastructure informatique fiable et innovante.

[email protected]
+91 7011868196
New Delhi, India

Hub de Croissance IA

Hub IAInnovation pour les startupsAccélérateur d'entreprise

Solutions

Toutes les solutionsApplications de bien-être et de fitnessPlateforme vidéo IADéveloppement d'agents IA

Ressources

PerspectivesGuides de l'industriePlans d'utilisationModèles d'architectureÉtudes de cas

Entreprise

Ă€ propos de nousContactNotre travail

Services

Consultation numériqueInfrastructure cloudDéveloppement SaaSDéveloppement IATechnologie vidéo
Développement ERPPersonnalisation ZohoDéveloppement OdooIntégration SalesforceDéveloppement CRM personnalisé
Intégration QuickBooksSolutions IoTDéveloppement Blockchain
Consultation en cybersécuritéSupport IT - L3

© 2026 MicrocosmWorks. Tous droits réservés.

Politique de confidentialitéConditions d'utilisation
Retour aux Études de Cas
AI Voice AgentsPublié June 22, 2026 · Mis à jour June 22, 2026

Assistant vocal AI en temps réel avec Function Calling et diffusion audio bidirectionnelle

Une plateforme de fitness et de nutrition avait besoin d'un assistant AI vocal prioritaire capable de répondre aux utilisateurs en temps réel avec une conversation naturelle, d'exécuter des calculs spécifiques au domaine (ajustements de repas, suivi des calories) et de prononcer les réponses — le tout avec une latence inférieure à une seconde pour une expérience véritablement conversationnelle.

Discutez de Votre Projet
realtime-voice-ai-assistant.webp
AI Voice Agents
Domain
10
Technologies
5
Key Results
Delivered
Status

Le Défi

La construction d'un assistant vocal AI de qualité production a posé des défis d'ingénierie temps réel uniques :

  • Latence — Les pipelines traditionnels speech-to-text → LLM → text-to-speech ajoutaient 3 Ă  5 secondes de dĂ©lai, rompant le flux conversationnel
  • Function Calling — L'assistant devait exĂ©cuter une logique mĂ©tier (calculs nutritionnels, ajustements de plans de repas) au milieu de la conversation, pas seulement chatter
  • Diffusion audio — L'audio bidirectionnel devait circuler en continu sans interruptions de mise en mĂ©moire tampon ni problèmes d'Ă©cho
  • Conscience du contexte — L'assistant devait maintenir le contexte de la conversation entre les tours tout en gĂ©rant les interruptions
  • Multilingue — Les utilisateurs parlaient dans diffĂ©rentes langues et s'attendaient Ă  des rĂ©ponses dans la mĂŞme langue
  • Isolation de session — Chaque session vocale nĂ©cessitait une gestion d'Ă©tat indĂ©pendante sans interfĂ©rence

Notre Solution

Nous avons construit un assistant vocal AI en temps réel alimenté par l'API Gemini Live de Google avec des capacités audio natives, des fonctions Function Calling personnalisées pour les calculs spécifiques au domaine, et un frontend React avec diffusion audio basée sur WebSocket.

Architecture

  • Modèle AI : Gemini avec entrĂ©e/sortie audio native et Function Calling
  • Backend : Python/FastAPI avec un point de terminaison WebSocket pour l'audio bidirectionnel
  • Pipeline audio : PyAudio pour l'E/S microphone/haut-parleur avec diffusion en temps rĂ©el
  • Frontend : React avec Vite et Tailwind CSS pour l'interface utilisateur de contrĂ´le de session
  • Communication : WebSocket pour la messagerie JSON Ă  faible latence et le transport audio binaire
  • Multimodal : Capture optionnelle de camĂ©ra et d'Ă©cran pour le contexte visuel

Pipeline audio en temps réel

Diffusion bidirectionnelle

Le système maintient des flux audio continus dans les deux directions :

  • EntrĂ©e : Audio du microphone capturĂ© en mono 16kHz, dĂ©coupĂ© en petites trames et diffusĂ© au modèle AI en temps rĂ©el
  • Sortie : Discours gĂ©nĂ©rĂ© par l'AI reçu Ă  24kHz et diffusĂ© immĂ©diatement via les haut-parleurs
  • Pas de mise en lot : Les fragments audio sont envoyĂ©s dès leur capture — pas de dĂ©lais d'accumulation
  • Gestion des interruptions : L'utilisateur peut interrompre l'assistant au milieu d'une rĂ©ponse naturellement

Traitement audio

  • Format PCM 16 bits pour l'entrĂ©e et la sortie
  • FrĂ©quences d'Ă©chantillonnage sĂ©parĂ©es optimisĂ©es pour la parole (capture 16kHz, lecture 24kHz)
  • Petites tailles de tampon pour une latence minimale
  • Diffusion continue sans interruptions de dĂ©marrage/arrĂŞt entre les tours

Intégration de Function Calling

Comment ça marche

Le modèle AI peut invoquer des fonctions Python locales au milieu de la conversation lorsque des calculs spécifiques au domaine sont nécessaires :

  1. L'utilisateur émet une requête vocale (par exemple, "J'ai manqué le déjeuner aujourd'hui")
  2. Le modèle AI transcrit et comprend l'intention
  3. Le modèle détermine qu'un appel de fonction est nécessaire et envoie une requête structurée
  4. Le Backend extrait le nom de la fonction, les arguments et l'ID d'appel
  5. La fonction locale exécute le calcul de domaine
  6. Le résultat est renvoyé au modèle sous forme de réponse structurée
  7. Le modèle génère une réponse vocale en langage naturel incorporant le résultat

Fonctions de domaine

Le système prend en charge le Function Calling axé sur la nutrition pour des scénarios tels que :

  • Repas manquĂ©s — Redistribue les macronutriments manquĂ©s sur les repas restants
  • Aliments imprĂ©vus — Ajuste les repas Ă  venir pour compenser un apport inattendu
  • Substitutions de repas — Échange des ingrĂ©dients tout en maintenant les objectifs de macros
  • Suivi d'activitĂ© — Estime la dĂ©pense calorique et ajuste le tampon nutritionnel

Chaque fonction utilise une base de données de macros avec des profils nutritionnels par aliment et effectue des calculs dynamiques avec une légère variation stochastique pour des réponses au rendu naturel.

Sécurité d'exécution

  • L'entrĂ©e du microphone est mise en pause pendant l'exĂ©cution de la fonction pour Ă©viter les chevauchements
  • Les trames audio en attente sont ignorĂ©es pour Ă©viter un contexte obsolète
  • Les rĂ©ponses d'erreur sont renvoyĂ©es avec Ă©lĂ©gance si l'exĂ©cution de la fonction Ă©choue
  • La diffusion normale reprend immĂ©diatement après la fin de l'exĂ©cution de la fonction

Architecture Backend

Serveur WebSocket FastAPI

  • Un seul point de terminaison WebSocket pour toutes les communications client
  • Gestion du cycle de vie des sessions (dĂ©marrage, arrĂŞt, vĂ©rifications d'Ă©tat ping/pong)
  • Une seule session active Ă  la fois avec verrouillage de session
  • Middleware CORS pour les environnements de dĂ©veloppement
  • Point de terminaison de vĂ©rification d'Ă©tat pour la surveillance

Gestion des sessions

  • Les sessions sont créées lors de la connexion du client avec sĂ©lection du mode (audio uniquement, camĂ©ra ou Ă©cran)
  • Des tâches asynchrones en arrière-plan gèrent la capture, le traitement et la lecture audio simultanĂ©ment
  • DĂ©connexion Ă©lĂ©gante avec nettoyage des ressources
  • Validation de clĂ© API et propagation des erreurs

Entrée multimodale (optionnel)

Au-delà de la voix, le système prend en charge un contexte visuel optionnel :

  • Mode CamĂ©ra — Diffuse des trames de webcam (1fps) pour le contexte visuel dans les conversations
  • Mode Écran — Capture le contenu de l'Ă©cran pour discuter des informations affichĂ©es Ă  l'Ă©cran
  • Les images sont redimensionnĂ©es et compressĂ©es avant transmission
  • Le contexte visuel amĂ©liore la capacitĂ© de l'AI Ă  fournir des rĂ©ponses pertinentes

Interface Frontend

  • ContrĂ´le de session — DĂ©marrage/arrĂŞt de l'Ă©coute avec des indicateurs d'Ă©tat clairs
  • Affichage du statut — État de connexion et de session en temps rĂ©el (inactif, connexion, actif, erreur)
  • Prise en charge des thèmes — Mode clair/sombre avec persistance
  • DĂ©monstration guidĂ©e — DĂ©monstration Ă©tape par Ă©tape pour les nouveaux utilisateurs
  • Gestion WebSocket — Logique de reconnexion automatique

Configuration du modèle AI

  • ModalitĂ© audio native (pas de pipeline STT/TTS sĂ©parĂ©)
  • SĂ©lection de voix configurable parmi plusieurs voix prĂ©dĂ©finies
  • Instructions système dĂ©finissant la personnalitĂ© de l'assistant, le style de rĂ©ponse et la gestion des langues
  • DĂ©finitions d'outils pour toutes les fonctions disponibles avec schĂ©mas de paramètres
  • DĂ©tection automatique de la langue avec rĂ©ponse dans la mĂŞme langue

Fonctionnalités clés

  1. Latence inférieure à la seconde — Le modèle audio natif élimine la surcharge du pipeline STT/TTS
  2. Audio bidirectionnel en temps réel — Diffusion continue avec < 50ms par fragment
  3. Function Calling — Calculs spécifiques au domaine exécutés au milieu de la conversation
  4. Interruption naturelle — Les utilisateurs peuvent interrompre l'assistant naturellement sans commandes spéciales
  5. Multilingue — Détection automatique de la langue avec réponses dans la même langue
  6. Entrée multimodale — Contexte de caméra et d'écran optionnel pour une compréhension visuelle
  7. Gestion des sessions — Contrôle du cycle de vie des sessions avec verrouillage et nettoyage des ressources
  8. Calculs de macros — Ajustements nutritionnels dynamiques avec des profils de macros par aliment
  9. Récupération d'erreurs — Gestion élégante des échecs de fonction et des interruptions réseau
  10. Extensible — De nouvelles fonctions ajoutées en définissant le schéma et le gestionnaire — pas de modifications d'architecture

Résultats

Latence de première réponse : 500-1200ms (contre 3-5s pour les pipelines traditionnels STT→LLM→TTS)
Temps de démarrage de session : ~200ms
Latence de diffusion audio : < 50ms par fragment (temps réel)

Stack Technologique

Google Gemini Live APIPythonFastAPIWebSocketPyAudioReactViteTailwind CSSOpenCVPillow

caseStudyDetail.more Études de Cas

Découvrez plus de nos implémentations techniques

AI Accounting

Traitement de factures assisté par l'IA avec OCR et intégration QuickBooks

Une entreprise de taille moyenne, traitant des centaines de factures fournisseurs chaque mois, devait éliminer la saisie manuelle des données en extrayant automatiquement les données des factures à l'aide de l'IA/OCR et en les synchronisant directement dans QuickBooks pour la tenue de livres et le suivi des paiements.

Lire l'Étude de Cas
Video Encoding

Insertion d'annonces côté client (CSAI) avec analyse des marqueurs SCTE-35 et intégration de lecteurs multiplateformes

Une plateforme de streaming vidéo devait implémenter l'insertion d'annonces côté client (CSAI) sur les applications web, mobiles et de télévision connectée — permettant des expériences publicitaires personnalisées au niveau de l'appareil avec un support complet d'interaction publicitaire (superpositions cliquables, bannières complémentaires, boutons de saut) que l'insertion côté serveur ne peut pas offrir.

PrĂŞt Ă  Transformer Votre Entreprise ?

Discutons de la façon dont nous pouvons appliquer des solutions similaires à vos défis.

Contactez-NouscaseStudyDetail.viewAllCaseStudies
Exécution de fonctions : Calculs de domaine achevés au sein du flux conversationnel
Expérience utilisateur : Sensation conversationnelle naturelle avec prise en charge des interruptions
Lire l'Étude de Cas
Web Scraping

Plateforme de Web Scraping et de Génération de Contenu de Blog Propulsée par l'AI

Une entreprise médiatique avait besoin d'une plateforme de contenu intelligente capable d'automatiser la création de contenu de blog en récupérant du contenu web existant, en l'analysant à l'aide de l'AI et en générant des articles de blog originaux et optimisés pour le SEO à partir des données extraites.

Lire l'Étude de Cas

Questions fréquemment posées

MicrocosmWorks a conçu un pipeline audio bidirectionnel WebSocket qui diffuse la parole de l'utilisateur au moteur ASR par blocs en temps réel, commence l'inférence LLM avant que l'utilisateur n'ait fini de parler en utilisant la transcription en continu, et démarre la synthèse vocale sur les premiers jetons de la réponse. Cette approche de pipelining permet d'atteindre des latences de réponse inférieures à 800 ms entre la fin de la parole et la première sortie audio, ce que les utilisateurs perçoivent comme une prise de parole conversationnelle naturelle.

MicrocosmWorks a intégré l'appel de fonction structuré où le LLM peut invoquer des APIs prédéfinies telles que la prise de rendez-vous, l'interrogation de bases de données ou le déclenchement de workflows basées sur le contexte de la conversation, les résultats étant ensuite communiqués verbalement à l'appelant de manière naturelle. Le système inclut des flux de confirmation pour les actions à fort enjeu comme les paiements ou les annulations, où l'assistant confirme verbalement les détails et attend l'approbation explicite de l'appelant avant d'exécuter l'action.

Oui, MicrocosmWorks a mis en œuvre le barge-in detection qui permet aux appelants d'interrompre l'assistant en pleine réponse, arrêtant immédiatement la lecture audio et traitant la nouvelle émission vocale. Le pipeline ASR inclut un prétraitement d'annulation de bruit et prend en charge des modèles affinés sur divers accents, atteignant plus de 90 % de précision de transcription dans des environnements bruyants typiques des appels téléphoniques depuis des voitures, des bureaux ou des espaces publics.

MicrocosmWorks a construit l'assistant vocal avec une intégration de trunk SIP et une connectivité Twilio, permettant un déploiement sur les numéros de téléphone professionnels existants, les systèmes IVR et les plateformes de centres de contact sans que les appelants n'aient à installer d'application ou à utiliser d'interface spéciale. La plateforme gère le routage des appels, la gestion des files d'attente et les transferts chaleureux vers des agents humains lorsque l'AI détermine qu'une conversation requiert une expertise humaine.

MicrocosmWorks développe des assistants vocaux AI personnalisés à des tarifs entre 30 $ et 50 $ l'heure, et bien que le coût initial de développement dépasse les frais de configuration des plateformes gérées, une solution personnalisée évite les frais d'utilisation à la minute qu'imposent des plateformes comme Dialogflow CX ou Amazon Lex, lesquels deviennent significatifs à des volumes d'appels élevés. Les développements personnalisés vous donnent également un contrôle total sur le LLM, la persona vocale et la function calling logic, que les plateformes gérées contraignent avec des paradigmes de flux de dialogue rigides.