MicrocosmWorksInovasi dan Seni Bina Kosmos Digital
TentangHubungi
MicrocosmWorksMemperbaharui dan Merangka Kosmos Digital

Menyampaikan penyelesaian IT yang penting. Kami bersemangat tentang teknologi, keselamatan, dan membantu perniagaan berkembang melalui infrastruktur IT yang boleh dipercayai dan inovatif.

[email protected]
+91 7011868196
New Delhi, India

Pusat Pertumbuhan AI

AI HubInovasi PermulaanPemecut Perusahaan

Penyelesaian

Semua PenyelesaianAplikasi Kesihatan & KecergasanPlatform Video AIPembangunan Ejen AI

Sumber

WawasanPanduan IndustriPelan Tindakan Kes PenggunaanCorak Seni BinaKajian Kes

Syarikat

Tentang KamiHubungiKerja Kami

Perkhidmatan

Perundingan DigitalInfrastruktur AwanPembangunan SaaSPembangunan AITeknologi Video
Pembangunan ERPPenyesuaian ZohoPembangunan OdooIntegrasi SalesforcePembangunan CRM Tersuai
Integrasi QuickBooksPenyelesaian IoTPembangunan Blockchain
Perundingan Keselamatan SiberSokongan IT - L3

Β© 2026 MicrocosmWorks. Hak cipta terpelihara.

Dasar PrivasiTerma Perkhidmatan
Kembali ke Kajian Kes
AI Voice AgentsDiterbitkan June 22, 2026 Β· Dikemas kini June 22, 2026

Pembantu AI Suara Masa Nyata dengan Panggilan Fungsi & Penstriman Audio Dua Arah

Sebuah platform kecergasan dan pemakanan memerlukan pembantu AI berasaskan suara yang boleh bertindak balas kepada pengguna secara masa nyata dengan perbualan semula jadi, melaksanakan pengiraan khusus domain (pelarasan hidangan, penjejakan kalori), dan menyuarakan semula jawapan β€” semuanya dengan kependaman bawah satu saat untuk pengalaman perbualan yang tulen.

Bincangkan Projek Anda
realtime-voice-ai-assistant.webp
AI Voice Agents
Domain
10
Technologies
5
Key Results
Delivered
Status

Cabaran

Membina pembantu AI suara gred pengeluaran menimbulkan cabaran kejuruteraan masa nyata yang unik:

  • Kependaman β€” Saluran paip speech-to-text β†’ LLM β†’ text-to-speech tradisional menambah 3-5 saat kelewatan, mengganggu aliran perbualan
  • Panggilan Fungsi β€” Pembantu perlu melaksanakan logik domain (pengiraan pemakanan, pelarasan rancangan makan) di tengah perbualan, bukan sekadar berbual
  • Penstriman Audio β€” Audio dua arah perlu mengalir secara berterusan tanpa jurang penimbalan atau isu gema
  • Kesedaran Konteks β€” Pembantu perlu mengekalkan konteks perbualan sepanjang giliran sambil mengendalikan gangguan
  • Pelbagai Bahasa β€” Pengguna bertutur dalam bahasa yang berbeza dan mengharapkan respons dalam bahasa yang sama
  • Pengasingan Sesi β€” Setiap sesi suara memerlukan pengurusan keadaan yang bebas tanpa perbualan silang

Penyelesaian Kami

Kami membina pembantu AI suara masa nyata yang dikuasakan oleh Gemini Live API Google dengan keupayaan audio asli, panggilan fungsi tersuai untuk pengiraan khusus domain, dan React frontend dengan penstriman audio berasaskan WebSocket.

Seni Bina

  • Model AI: Gemini dengan input/output audio asli dan panggilan fungsi
  • Backend: Python/FastAPI dengan WebSocket endpoint untuk audio dua arah
  • Saluran Paip Audio: PyAudio untuk I/O mikrofon/pembesar suara dengan penstriman masa nyata
  • Frontend: React dengan Vite dan Tailwind CSS untuk UI kawalan sesi
  • Komunikasi: WebSocket untuk pemesejan JSON kependaman rendah dan pengangkutan audio binari
  • Multimodal: Tangkapan kamera dan skrin pilihan untuk konteks visual

Saluran Paip Audio Masa Nyata

Penstriman Dua Arah

Sistem mengekalkan aliran audio berterusan dalam kedua-dua arah:

  • Input: Audio mikrofon ditangkap pada 16kHz mono, dipecahkan kepada bingkai kecil, dan distrim ke model AI secara masa nyata
  • Output: Ucapan yang dijana AI diterima pada 24kHz dan dimainkan melalui pembesar suara dengan serta-merta
  • Tiada Pemprosesan Kelompok: Pecahan audio dihantar seperti yang ditangkap β€” tiada kelewatan pengumpulan
  • Pengendalian Gangguan: Pengguna boleh mengganggu pembantu di tengah respons secara semula jadi

Pemprosesan Audio

  • Format PCM 16-bit untuk input dan output
  • Kadar sampel berasingan yang dioptimumkan untuk ucapan (penangkapan 16kHz, main balik 24kHz)
  • Saiz penimbal kecil untuk kependaman minimum
  • Penstriman berterusan tanpa jurang mula/henti antara giliran

Integrasi Panggilan Fungsi

Cara Ia Berfungsi

Model AI boleh memanggil fungsi Python tempatan di tengah perbualan apabila pengiraan khusus domain diperlukan:

  1. Pengguna menyuarakan permintaan (cth., "Saya terlepas makan tengah hari hari ini")
  2. Model AI menyalin dan memahami niat
  3. Model menentukan panggilan fungsi diperlukan dan menghantar permintaan berstruktur
  4. Backend mengekstrak nama fungsi, argumen, dan ID panggilan
  5. Fungsi tempatan melaksanakan pengiraan domain
  6. Hasil dihantar kembali ke model sebagai respons berstruktur
  7. Model menjana respons suara bahasa semula jadi yang menggabungkan hasil

Fungsi Domain

Sistem ini menyokong panggilan fungsi yang berfokuskan pemakanan untuk senario seperti:

  • Hidangan Terlepas β€” Mengagihkan semula makronutrien yang terlepas merentas hidangan yang tinggal
  • Makanan Tidak Dirancang β€” Melaraskan hidangan akan datang untuk mengimbangi pengambilan yang tidak dijangka
  • Penggantian Hidangan β€” Menukar bahan sambil mengekalkan sasaran makro
  • Penjejakan Aktiviti β€” Menganggarkan pembakaran kalori dan melaraskan penimbal nutrisi

Setiap fungsi menggunakan pangkalan data makro dengan profil nutrisi setiap makanan dan melakukan pengiraan dinamik dengan sedikit variasi stokastik untuk respons yang terasa semula jadi.

Keselamatan Pelaksanaan

  • Input mikrofon dijeda semasa pelaksanaan fungsi untuk mengelakkan pertindihan
  • Bingkai audio yang belum selesai digugurkan untuk mengelakkan konteks lapuk
  • Respons ralat dihantar kembali dengan lancar jika pelaksanaan fungsi gagal
  • Penstriman normal disambung semula serta-merta selepas fungsi selesai

Seni Bina Backend

Pelayan WebSocket FastAPI

  • Endpoint WebSocket tunggal untuk semua komunikasi klien
  • Pengurusan kitaran hayat sesi (mula, henti, pemeriksaan kesihatan ping/pong)
  • Satu sesi aktif pada satu masa dengan penguncian sesi
  • CORS middleware untuk persekitaran pembangunan
  • Endpoint pemeriksaan kesihatan untuk pemantauan

Pengurusan Sesi

  • Sesi dicipta pada sambungan klien dengan pemilihan mod (audio sahaja, kamera, atau skrin)
  • Tugas async latar belakang mengendalikan penangkapan, pemprosesan, dan main balik audio secara serentak
  • Pemutusan sambungan yang lancar dengan pembersihan sumber
  • Pengesahan kunci API dan penyebaran ralat

Input Multimodal (Pilihan)

Selain suara, sistem ini menyokong konteks visual pilihan:

  • Mod Kamera β€” Menstrim bingkai webcam (1fps) untuk konteks visual dalam perbualan
  • Mod Skrin β€” Menangkap kandungan skrin untuk membincangkan maklumat pada skrin
  • Imej diubah saiz dan dimampatkan sebelum penghantaran
  • Konteks visual meningkatkan keupayaan AI untuk memberikan respons yang relevan

Antaramuka Frontend

  • Kawalan Sesi β€” Mula/henti mendengar dengan penunjuk status yang jelas
  • Paparan Status β€” Sambungan masa nyata dan keadaan sesi (terbiar, menyambung, aktif, ralat)
  • Sokongan Tema β€” Mod terang/gelap dengan ketekalan
  • Panduan Berpandu β€” Demo langkah demi langkah untuk pengguna kali pertama
  • Pengurusan WebSocket β€” Logik penyambungan semula automatik

Konfigurasi Model AI

  • Modaliti audio asli (tiada saluran paip STT/TTS berasingan)
  • Pemilihan suara yang boleh dikonfigurasi daripada pelbagai suara pratetap
  • Arahan sistem yang menentukan personaliti pembantu, gaya respons, dan pengendalian bahasa
  • Definisi alat untuk semua fungsi yang tersedia dengan skema parameter
  • Pengesanan bahasa automatik dengan respons bahasa yang sama

Ciri-ciri Utama

  1. Kependaman Bawah Satu Saat β€” Model audio asli menghapuskan overhed saluran paip STT/TTS
  2. Audio Dua Arah Masa Nyata β€” Penstriman berterusan dengan < 50ms setiap pecahan
  3. Panggilan Fungsi β€” Pengiraan khusus domain dilaksanakan di tengah perbualan
  4. Gangguan Semula Jadi β€” Pengguna boleh mengganggu pembantu secara semula jadi tanpa arahan khas
  5. Pelbagai Bahasa β€” Pengesanan bahasa automatik dengan respons bahasa yang sama
  6. Input Multimodal β€” Konteks kamera dan skrin pilihan untuk pemahaman visual
  7. Pengurusan Sesi β€” Kawalan kitaran hayat sesi dengan penguncian dan pembersihan sumber
  8. Pengiraan Makro β€” Pelarasan nutrisi dinamik dengan profil makro setiap makanan
  9. Pemulihan Ralat β€” Pengendalian kegagalan fungsi dan gangguan rangkaian yang lancar
  10. Boleh Diperluaskan β€” Fungsi baharu ditambah dengan mentakrifkan skema dan pengendali β€” tiada perubahan seni bina

Keputusan

Kependaman Respons Pertama: 500-1200ms (berbanding 3-5s untuk saluran paip STT→LLM→TTS tradisional)
Masa Mula Sesi: ~200ms
Kependaman Penstriman Audio: < 50ms setiap pecahan (masa nyata)

Timbunan Teknologi

Google Gemini Live APIPythonFastAPIWebSocketPyAudioReactViteTailwind CSSOpenCVPillow

caseStudyDetail.more Kajian Kes

Terokai lebih banyak pelaksanaan teknikal kami

AI Accounting

Pemprosesan Invois Berkuasa AI dengan OCR dan Integrasi QuickBooks

Sebuah perniagaan bersaiz sederhana yang memproses ratusan invois vendor setiap bulan perlu menghapuskan kemasukan data manual dengan mengekstrak data invois secara automatik menggunakan AI/OCR dan menyegerakkannya terus ke dalam QuickBooks untuk tujuan simpan kira dan penjejakan pembayaran.

Baca Kajian Kes
Video Encoding

Penyisipan Iklan Sisi Klien (CSAI) dengan Penghuraian Penanda SCTE-35 & Integrasi Pemain Berbilang Platform

Sebuah platform penstriman video perlu melaksanakan Client-Side Ad Insertion (CSAI) merentasi aplikasi web, mudah alih, dan TV bersambung β€” membolehkan pengalaman iklan yang diperibadikan pada peringkat peranti dengan sokongan interaksi iklan penuh (lapisan tindanan boleh klik, sepanduk pendamping, butang langkau) yang tidak dapat disediakan oleh penyisipan sisi pelayan.

Bersedia untuk Mentransformasi Perniagaan Anda?

Mari bincangkan bagaimana kami boleh mengaplikasikan penyelesaian serupa untuk cabaran anda.

Hubungi KamicaseStudyDetail.viewAllCaseStudies
Pelaksanaan Fungsi: Pengiraan domain diselesaikan dalam aliran perbualan
Pengalaman Pengguna: Rasa perbualan semula jadi dengan sokongan gangguan
Baca Kajian Kes
Web Scraping

Platform Pengikisan & Penjanaan Kandungan Blog Dikuasakan AI

Sebuah syarikat media memerlukan platform kandungan pintar yang boleh mengautomasikan penciptaan kandungan blog dengan mengikis kandungan web sedia ada, menganalisisnya menggunakan AI, dan menjana artikel blog asli yang dioptimumkan SEO daripada data yang diekstrak.

Baca Kajian Kes

Soalan Lazim

MicrocosmWorks mereka bentuk saluran paip audio WebSocket dwiarah yang menstrimkan ucapan pengguna kepada enjin ASR dalam cebisan masa nyata, memulakan inferens LLM sebelum pengguna selesai bercakap menggunakan transkripsi penstriman, dan memulakan sintesis teks-ke-ucapan pada token pertama respons. Pendekatan penyaluran paip ini mencapai kependaman respons di bawah 800ms dari akhir ucapan hingga keluaran audio pertama, yang pengguna anggap sebagai giliran perbualan semula jadi.

MicrocosmWorks mengintegrasikan panggilan fungsi berstruktur di mana LLM boleh memanggil API yang telah ditetapkan seperti menempah janji temu, menanyakan pangkalan data, atau mencetuskan aliran kerja berdasarkan konteks perbualan, dengan hasil yang disuarakan kembali kepada pemanggil secara semula jadi. Sistem ini merangkumi aliran pengesahan untuk tindakan berisiko tinggi seperti pembayaran atau pembatalan, di mana pembantu mengesahkan butiran secara lisan dan menunggu kelulusan jelas pemanggil sebelum melaksanakan.

Ya, MicrocosmWorks melaksanakan pengesanan barge-in yang membolehkan pemanggil mengganggu pembantu di tengah-tengah respons, serta-merta menghentikan main semula audio dan memproses ujaran baharu itu. Saluran paip ASR merangkumi prapemprosesan pembatalan hingar dan menyokong model-model yang ditala halus pada pelbagai aksen, mencapai ketepatan transkripsi lebih 90% dalam persekitaran bising yang biasa berlaku dalam panggilan telefon dari kereta, pejabat, atau ruang awam.

MicrocosmWorks membina pembantu suara itu dengan integrasi SIP trunk dan sambungan Twilio, menyokong penempatan pada nombor telefon perniagaan sedia ada, sistem IVR, dan platform pusat hubungan tanpa memerlukan pemanggil untuk memasang sebarang aplikasi atau menggunakan antara muka khas. Platform itu mengendalikan penghalaan panggilan, pengurusan barisan, dan pemindahan hangat kepada ejen manusia apabila AI menentukan perbualan memerlukan kepakaran manusia.

MicrocosmWorks membangunkan pembantu AI suara tersuai pada kadar antara $30-$50/jam, dan walaupun kos pembinaan awal melebihi yuran persediaan platform terurus, penyelesaian tersuai mengelakkan caj penggunaan per minit yang dikenakan oleh platform seperti Dialogflow CX atau Amazon Lex, yang menjadi ketara pada volum panggilan yang tinggi. Pembinaan tersuai juga memberi anda kawalan penuh ke atas LLM, persona suara, dan logik panggilan fungsi, yang mana platform terurus mengekang dengan paradigma aliran dialog yang tegar.