MicrocosmWorksInnovoimassa ja Arkkitehtuuria Digitaalisessa Kosmoksessa
TietoaYhteystiedot
MicrocosmWorksInnovoimassa ja suunnittelemassa digitaalista kosmosta

Toimitamme IT-ratkaisuja, joilla on merkitystä. Olemme intohimoisia teknologiasta, turvallisuudesta ja autamme yrityksiä kasvamaan luotettavan, innovatiivisen IT-infrastruktuurin kautta.

[email protected]
+91 7011868196
New Delhi, India

AI Kasvuhubi

AI HubStartup-innovaatiotYrityskiihdyttämö

Ratkaisut

Kaikki ratkaisutHyvinvointi- ja kuntoilusovelluksetAI-videoplatformiAI-agenttikehitys

Resurssit

OivalluksetToimialan oppaatKäyttötapausmallitArkkitehtuurimallitTapaustutkimukset

Yritys

Tietoa meistäYhteystiedotTyömme

Palvelut

Digitaalinen konsultointiPilvi-infrastruktuuriSaaS-kehitysAI-kehitysVideoteknologia
ERP-kehitysZoho-mukautusOdoo-kehitysSalesforce-integraatioMukautettu CRM-kehitys
QuickBooks-integraatioIoT-ratkaisutLohkoketjukehitys
KyberturvallisuuskonsultointiIT-tuki - L3

© 2026 MicrocosmWorks. Kaikki oikeudet pidätetään.

TietosuojakäytäntöKäyttöehdot
Takaisin Tapaustutkimuksiin
AI Voice AgentsJulkaistu June 22, 2026 · Päivitetty June 22, 2026

Reaaliaikainen tekoäly-ääniassistentti funktiokutsuilla ja kaksisuuntaisella audion suoratoistolla

Kunto- ja ravitsemusalusta tarvitsi ääni-ensimmäisen AI-assistentin, joka kykenisi vastaamaan käyttäjille reaaliaikaisesti luonnollisella keskustelulla, suorittamaan toimialakohtaisia laskelmia (ateria-säädöt, kalorin seuranta) ja puhumaan vastauksia takaisin – kaikki alle sekunnin viiveellä todella keskustelevan kokemuksen saavuttamiseksi.

Keskustele Projektistasi
realtime-voice-ai-assistant.webp
AI Voice Agents
Domain
10
Technologies
5
Key Results
Delivered
Status

Haaste

Tuotantolaatuisen tekoäly-ääniassistentin rakentaminen toi mukanaan ainutlaatuisia reaaliaikaisia suunnitteluhaasteita:

  • Viive — Perinteiset speech-to-text → LLM → text-to-speech -putket lisäsivät 3–5 sekunnin viiveen, katkaisten keskustelun kulun
  • Funktiokutsut — Assistentin oli suoritettava toimialalogiikkaa (ravitsemuslaskelmia, ruokasuunnitelman säätöjä) keskustelun aikana, ei vain keskustella
  • Audion suoratoisto — Kaksisuuntaisen audion oli virrattava jatkuvasti ilman puskurointikatkoksia tai kaikuongelmia
  • Kontekstitietoisuus — Assistentin oli ylläpidettävä keskustelun kontekstia vuorojen välillä samalla kun se käsitteli keskeytyksiä
  • Monikielisyys — Käyttäjät puhuivat eri kielillä ja odottivat vastauksia samalla kielellä
  • Istuntojen eristys — Kukin ääni-istunto tarvitsi itsenäisen tilanhallinnan ilman ristiinpuhetta

Meidän Ratkaisumme

Rakensimme reaaliaikaisen tekoäly-ääniassistentin, joka perustuu Googlen Gemini Live API:in natiiveilla ääniominaisuuksilla, mukautetuilla funktiokutsuilla toimialakohtaisiin laskelmiin, ja React-käyttöliittymän WebSocket-pohjaisella audion suoratoistolla.

Arkkitehtuuri

  • AI-malli: Gemini natiivilla ääni-syötteellä/ulostulolla ja funktiokutsuilla
  • Backend: Python/FastAPI WebSocket-päätepisteellä kaksisuuntaista audiota varten
  • Audion käsittelyputki: PyAudio mikrofonin/kaiuttimen I/O:lle reaaliaikaisella suoratoistolla
  • Frontend: React, Vite ja Tailwind CSS istunnon ohjaus käyttöliittymää varten
  • Tiedonsiirto: WebSocket matalaviiveiseen JSON-viestintään ja binääriäänen siirtoon
  • Monimodaalinen: Valinnainen kameran ja näytön kaappaus visuaalista kontekstia varten

Reaaliaikainen audion käsittelyputki

Kaksisuuntainen suoratoisto

Järjestelmä ylläpitää jatkuvia audiostreameja molempiin suuntiin:

  • Sisääntulo: Mikrofonin ääni tallennettuna 16kHz monona, jaettuna pieniin kehyksiin ja suoratoistettuna AI-mallille reaaliaikaisesti
  • Ulostulo: AI:n tuottama puhe vastaanotettuna 24kHz:nä ja soitettuna kaiuttimien kautta välittömästi
  • Ei eräkäsittelyä: Äänipalaset lähetetään sellaisenaan kuin ne on kaapattu – ei viiveitä kertymisestä
  • Keskeytysten käsittely: Käyttäjä voi keskeyttää assistentin luonnollisesti vastauksen aikana

Audion käsittely

  • 16-bittinen PCM-muoto sekä sisääntulolle että ulostulolle
  • Erilliset näytteenottotaajuudet optimoitu puhetta varten (16kHz tallennus, 24kHz toisto)
  • Pienet puskurikoot minimaalisen viiveen saavuttamiseksi
  • Jatkuva suoratoisto ilman aloitus/lopetus-aukkoja vuorojen välillä

Funktiokutsujen integrointi

Miten se toimii

AI-malli voi kutsua paikallisia Python-funktioita keskustelun aikana, kun toimialakohtaisia laskelmia tarvitaan:

  1. Käyttäjä esittää pyynnön (esim. "Jäi lounas tänään välistä")
  2. AI-malli litteroi ja ymmärtää tarkoituksen
  3. Malli määrittää, että funktiokutsua tarvitaan, ja lähettää jäsennellyn pyynnön
  4. Backend poimii funktion nimen, argumentit ja kutsun ID:n
  5. Paikallinen funktio suorittaa toimialalaskelman
  6. Tulos lähetetään takaisin mallille jäsenneltynä vastauksena
  7. Malli luo luonnollisen kielen äänivastauksen, joka sisältää tuloksen

Toimialakohtaiset funktiot

Järjestelmä tukee ravitsemukseen keskittyvää funktiokutsua seuraaviin tilanteisiin:

  • Väliin jääneet ateriat — Jakaa väliin jääneet makroravinteet uudelleen jäljellä oleviin aterioihin
  • Suunnittelematon ruoka — Säätää tulevia aterioita kompensoimaan odottamatonta saantia
  • Ateriakorvaukset — Vaihtaa ainesosia ylläpitäen samalla makrotavoitteita
  • Aktiivisuuden seuranta — Arvioi kalorinkulutuksen ja säätää ravitsemuspuskuria

Jokainen funktio käyttää makrotietokantaa ruokakohtaisilla ravitsemusprofiileilla ja suorittaa dynaamisia laskelmia pienellä stokastisella vaihtelulla luonnollisen tuntuisia vastauksia varten.

Suoritusturvallisuus

  • Mikrofonin syöttö keskeytetään funktion suorituksen aikana päällekkäisyyden estämiseksi
  • Odottelevat äänikehykset pudotetaan vanhentuneen kontekstin välttämiseksi
  • Virhevastaukset lähetetään takaisin hallitusti, jos funktion suoritus epäonnistuu
  • Normaali suoratoisto jatkuu välittömästi funktion suorituksen jälkeen

Backend-arkkitehtuuri

FastAPI WebSocket-palvelin

  • Yksi WebSocket-päätepiste kaikelle asiakasviestinnälle
  • Istunnon elinkaaren hallinta (aloitus, lopetus, ping/pong-kuntotarkistukset)
  • Yksi aktiivinen istunto kerrallaan istunnon lukituksella
  • CORS-middleware kehitysympäristöihin
  • Kuntotarkistuspäätepiste valvontaan

Istunnonhallinta

  • Istunnot luodaan asiakkaan yhteyden muodostuessa tilavalinnalla (vain ääni, kamera tai näyttö)
  • Tausta-synkronoimattomat tehtävät hoitavat äänen kaappauksen, käsittelyn ja toiston samanaikaisesti
  • Hallittu katkaisu resurssien vapautuksella
  • API-avaimen validointi ja virheiden levittäminen

Monimodaalinen syöttö (valinnainen)

Äänen lisäksi järjestelmä tukee valinnaista visuaalista kontekstia:

  • Kameratila — Suoratoistaa webkameran kuvia (1 fps) visuaalista kontekstia varten keskusteluissa
  • Näyttötila — Kaappaa näytön sisältöä näytöllä olevien tietojen keskustelemiseen
  • Kuvat muutetaan kokoa ja pakataan ennen siirtoa
  • Visuaalinen konteksti parantaa AI:n kykyä tarjota relevantteja vastauksia

Käyttöliittymä (Frontend)

  • Istunnon hallinta — Kuuntelun aloitus/lopetus selkeillä tilailmaisimilla
  • Tilannäyttö — Reaaliaikainen yhteys- ja istuntotila (joutilas, yhdistää, aktiivinen, virhe)
  • Teematuki — Vaalea/tumma tila pysyvyydellä
  • Opastettu esittely — Vaiheittainen demo ensikertalaisille
  • WebSocket-hallinta — Automaattinen uudelleenliitäntälogiikka

AI-mallin konfigurointi

  • Natiivi audiotila (ei erillistä STT/TTS-putkea)
  • Konfiguroitava äänenvalinta useista esiasetetuista äänistä
  • Järjestelmäohjeet, jotka määrittelevät assistentin persoonallisuuden, vastaustyylin ja kielen käsittelyn
  • Työkalumääritelmät kaikille käytettävissä oleville funktioille parametriskeemoineen
  • Automaattinen kielen tunnistus samankielisellä vastauksella

Tärkeimmät ominaisuudet

  1. Alle sekunnin viive — Natiivi audio-malli eliminoi STT/TTS-putken ylikuormituksen
  2. Reaaliaikainen kaksisuuntainen audio — Jatkuva suoratoisto < 50 ms palakohtaisella viiveellä
  3. Funktiokutsut — Toimialakohtaiset laskelmat suoritetaan keskustelun aikana
  4. Luonnollinen keskeytys — Käyttäjät voivat keskeyttää assistentin luonnollisesti ilman erityisiä komentoja
  5. Monikielisyys — Automaattinen kielen tunnistus samankielisillä vastauksilla
  6. Monimodaalinen syöttö — Valinnainen kamera- ja näyttökonteksti visuaalista ymmärrystä varten
  7. Istunnonhallinta — Istunnon elinkaaren hallinta lukituksella ja resurssien vapautuksella
  8. Makrolaskelmat — Dynaamiset ravitsemukselliset säädöt ruokakohtaisilla makroprofiileilla
  9. Virheiden palautus — Hallittu funktiovirheiden ja verkkoviivästysten käsittely
  10. Laajennettava — Uusia funktioita lisätään määrittämällä skeema ja käsittelijä – ei arkkitehtuurimuutoksia

Tulokset

Ensimmäisen vastauksen viive: 500-1200 ms (verrattuna 3-5 sekuntiin perinteisissä STT→LLM→TTS-putkissa)
Istunnon käynnistysaika: ~200 ms
Audion suoratoistoviive: < 50 ms palasta (reaaliaikainen)

Teknologiapino

Google Gemini Live APIPythonFastAPIWebSocketPyAudioReactViteTailwind CSSOpenCVPillow

caseStudyDetail.more Tapaustutkimukset

Tutustu lisää teknisiin toteutuksiimme

AI Accounting

AI-pohjainen laskujen käsittely OCR:n ja QuickBooks-integraation avulla

Keskisuuri yritys, joka käsitteli satoja toimittajalaskuja kuukausittain, halusi poistaa manuaalisen tiedonsyötön poimimalla laskutiedot automaattisesti AI/OCR:n avulla ja synkronoimalla ne suoraan QuickBooks-järjestelmään kirjanpitoa ja maksujen seurantaa varten.

Lue Tapaustutkimus
Video Encoding

Asiakaspuolen mainosten upotus (CSAI) SCTE-35-merkkien jäsennyksellä ja monialustaisen soittimen integroinnilla

Videoiden suoratoistoalustan piti toteuttaa Client-Side Ad Insertion (CSAI) verkko-, mobiili- ja Connected TV -sovellusten yli — mahdollistaen personoidut, laitekohtaiset mainoskokemukset täydellä mainosinteraktion tuella (klikkaavat peittokuvat, kumppanibannerit, ohituspainikkeet), joita server-side insertion ei voi tarjota.

Lue Tapaustutkimus

Valmis Muuttamaan Liiketoimintaasi?

Keskustellaan siitä, miten voimme soveltaa vastaavia ratkaisuja haasteisiisi.

Ota YhteyttäcaseStudyDetail.viewAllCaseStudies
Funktion suoritus: Toimialalaskelmat suoritettu keskustelun kulun sisällä
Käyttäjäkokemus: Luonnollinen keskustelutuntuma keskeytystuella
Web Scraping

Tekoälykäyttöinen blogisisällön kaavinta- ja generointialusta

Mediakonserni tarvitsi älykkään sisältöalustan, joka voisi automatisoida blogisisällön luomisen kaapimalla olemassa olevaa verkkosisältöä, analysoimalla sitä AI:lla ja luomalla alkuperäisiä, SEO-optimoituja blogikirjoituksia poimitusta tiedosta.

Lue Tapaustutkimus

Usein kysytyt kysymykset

MicrocosmWorks suunnitteli kaksisuuntaisen WebSocket-ääni-putkilinjan, joka suoratoistaa käyttäjän puheen ASR-moottorille reaaliaikaisina paloina, aloittaa LLM-inferenssin ennen kuin käyttäjä lopettaa puhumisen käyttäen suoratoistokirjoitusta, ja käynnistää tekstistä puheeksi -synteesin vastauksen ensimmäisillä tokeneilla. Tämä putkitusmenetelmä saavuttaa vastausviiveitä alle 800 ms puheen päättymisestä ensimmäiseen äänilähtöön, minkä käyttäjät kokevat luonnollisena keskustelun vuoronvaihtona.

MicrocosmWorks integroi strukturoidun funktion kutsumisen, jossa LLM voi kutsua ennalta määriteltyjä API-rajapintoja, kuten tapaamisten varaamista, tietokantojen kyselyä tai työnkulkujen käynnistämistä keskusteluyhteyden perusteella, ja tulokset puhutaan takaisin soittajalle luonnollisesti. Järjestelmä sisältää vahvistusvirrat korkean riskin toiminnoille, kuten maksuille tai peruutuksille, jossa assistentti vahvistaa tiedot suullisesti ja odottaa soittajan nimenomaista hyväksyntää ennen toteuttamista.

Kyllä, MicrocosmWorks toteutti barge-in-tunnistuksen, joka antaa soittajien keskeyttää avustajan kesken vastauksen, pysäyttäen välittömästi äänen toiston ja käsitellen uuden puheen. ASR-putki sisältää melunvaimennuksen esikäsittelyn ja tukee malleja, jotka on hienosäädetty monimuotoisille aksenteille, saavuttaen yli 90 % transkriptiotarkkuuden meluisissa ympäristöissä, jotka ovat tyypillisiä puheluille autoista, toimistoista tai julkisista tiloista.

MicrocosmWorks rakensi puheavustajan SIP trunk -integraatiolla ja Twilio-yhteydellä, tukien käyttöönottoa olemassa olevissa yrityspuhelinnumeroissa, IVR-järjestelmissä ja asiakaspalvelualustoilla ilman, että soittajien tarvitsee asentaa sovellusta tai käyttää erityistä käyttöliittymää. Alusta hoitaa puheluiden reitityksen, jonojen hallinnan ja lämpimät siirrot ihmisagentteille, kun AI arvioi keskustelun vaativan ihmisasiantuntemusta.

MicrocosmWorks kehittää räätälöityjä puhe-AI-assistentteja hintaan $30-$50/tunti, ja vaikka rakentamisen ennakkokustannukset ylittävät hallittujen alustojen asennusmaksut, räätälöity ratkaisu välttää minuuttipohjaiset käyttömaksut, joita alustat kuten Dialogflow CX tai Amazon Lex asettavat, ja jotka muodostuvat merkittäviksi suurilla puhelumäärillä. Räätälöidyt rakennelmat antavat myös täyden hallinnan LLM:ään, äänihenkilöllisyyteen ja funktioiden kutsumislogiikkaan, joita hallitut alustat rajoittavat jäykillä dialogivirran paradigmoilla.