MicrocosmWorksDijital Kozmosu Yenilikçi ve Mimari Olarak Tasarlamak
Hakkındaİletişim
MicrocosmWorksDijital Kozmosu Yenilikçi ve Mimari Olarak İnşa Etmek

Önemli BT çözümleri sunuyoruz. Teknoloji, güvenlik ve işletmelerin güvenilir, yenilikçi BT altyapısı ile büyümesine yardımcı olmaktan tutkuluyuz.

[email protected]
+91 7011868196
New Delhi, India

AI Büyüme Merkezi

AI MerkeziStartup İnovasyonuKurumsal Hızlandırıcı

Çözümler

Tüm ÇözümlerSağlık ve Fitness UygulamalarıAI Video PlatformuAI Ajan Geliştirme

Kaynaklar

ÖngörülerSektör RehberleriKullanım Durumu ŞablonlarıMimari KalıplarVaka Çalışmaları

Şirket

HakkımızdaİletişimÇalışmalarımız

Hizmetler

Dijital DanışmanlıkBulut AltyapısıSaaS GeliştirmeYapay Zeka GeliştirmeVideo Teknolojisi
ERP GeliştirmeZoho ÖzelleştirmeOdoo GeliştirmeSalesforce EntegrasyonuÖzel CRM Geliştirme
QuickBooks EntegrasyonuIoT ÇözümleriBlokzincir Geliştirme
Siber Güvenlik DanışmanlığıIT Desteği - L3

© 2026 MicrocosmWorks. Tüm hakları saklıdır.

Gizlilik PolitikasıHizmet Şartları
Vaka Çalışmalarına Dön
AI Voice AgentsYayınlandı June 22, 2026 · Güncellendi June 22, 2026

Fonksiyon Çağırma ve Çift Yönlü Ses Akışı ile Gerçek Zamanlı Sesli AI Asistanı

Bir fitness ve beslenme platformu, kullanıcılara doğal konuşma ile gerçek zamanlı yanıt verebilen, alana özgü hesaplamaları (yemek ayarlamaları, kalori takibi) yürütebilen ve yanıtları sesli olarak geri iletebilen ses odaklı bir AI asistanına ihtiyaç duyuyordu — hepsi gerçek anlamda sohbet deneyimi için saniye altı gecikmeyle.

Projenizi Tartışın
realtime-voice-ai-assistant.webp
AI Voice Agents
Domain
10
Technologies
5
Key Results
Delivered
Status

Zorluk

Üretim sınıfı bir sesli AI asistanı inşa etmek, benzersiz gerçek zamanlı mühendislik zorlukları ortaya çıkardı:

  • Gecikme — Geleneksel speech-to-text → LLM → text-to-speech boru hatları 3-5 saniye gecikme ekleyerek konuşma akışını bozuyordu
  • Function Calling — Asistanın sadece sohbet etmekle kalmayıp, konuşma sırasında alana özgü mantığı (beslenme hesaplamaları, yemek planı ayarlamaları) yürütmesi gerekiyordu
  • Ses Akışı — Çift yönlü sesin, arabelleğe alma boşlukları veya yankı sorunları olmadan sürekli akması gerekiyordu
  • Bağlam Farkındalığı — Asistanın kesintileri yönetirken konuşma bağlamını dönüşler arasında sürdürmesi gerekiyordu
  • Çok Dilli — Kullanıcılar farklı dillerde konuşuyor ve aynı dilde yanıtlar bekliyordu
  • Oturum İzolasyonu — Her ses oturumunun, çapraz konuşma olmadan bağımsız durum yönetimine ihtiyacı vardı

Çözümümüz

Google'ın Gemini Live API'si tarafından desteklenen, yerel ses yeteneklerine, alana özgü hesaplamalar için özel function calling'e ve WebSocket tabanlı ses akışına sahip bir React ön yüzüne sahip gerçek zamanlı sesli AI asistanı geliştirdik.

Mimari

  • AI Modeli: Yerel ses girişi/çıkışı ve function calling özellikli Gemini
  • Arka Uç: Çift yönlü ses için WebSocket uç noktasına sahip Python/FastAPI
  • Ses İşlem Hattı: Mikrofon/hoparlör I/O'su ve gerçek zamanlı akış için PyAudio
  • Ön Uç: Oturum kontrolü UI'ı için Vite ve Tailwind CSS ile React
  • İletişim: Düşük gecikmeli JSON mesajlaşması ve ikili ses taşıması için WebSocket
  • Çok Modlu: Görsel bağlam için isteğe bağlı kamera ve ekran yakalama

Gerçek Zamanlı Ses İşlem Hattı

Çift Yönlü Akış

Sistem, her iki yönde de sürekli ses akışları sağlar:

  • Giriş: 16kHz mono olarak yakalanan, küçük çerçevelere bölünen ve AI modeline gerçek zamanlı olarak aktarılan mikrofon sesi
  • Çıkış: 24kHz'de alınan ve hoparlörlerden anında oynatılan AI tarafından üretilen konuşma
  • Toplu İşleme Yok: Ses öbekleri yakalandığı gibi gönderilir — birikim gecikmeleri olmaz
  • Kesinti Yönetimi: Kullanıcı, asistanı yanıtının ortasında doğal bir şekilde kesebilir

Ses İşleme

  • Hem giriş hem de çıkış için 16-bit PCM formatı
  • Konuşma için optimize edilmiş ayrı örnekleme hızları (16kHz yakalama, 24kHz oynatma)
  • Minimum gecikme için küçük arabellek boyutları
  • Dönüşler arasında başlatma/durdurma boşlukları olmadan sürekli akış

Function Calling Entegrasyonu

Nasıl Çalışır

AI modeli, alana özgü hesaplamalar gerektiğinde konuşma sırasında yerel Python fonksiyonlarını çağırabilir:

  1. Kullanıcı bir istekte bulunur (örneğin, "Bugün öğle yemeğini kaçırdım")
  2. AI modeli konuşmayı yazıya döker ve niyeti anlar
  3. Model, bir fonksiyon çağrısı gerektiğine karar verir ve yapılandırılmış bir istek gönderir
  4. Arka uç, fonksiyon adını, argümanları ve çağrı ID'sini çıkarır
  5. Yerel fonksiyon, alan hesaplamasını yürütür
  6. Sonuç, yapılandırılmış bir yanıt olarak modele geri gönderilir
  7. Model, sonucu içeren doğal dilde bir sesli yanıt üretir

Alan Fonksiyonları

Sistem, aşağıdaki senaryolar için beslenme odaklı function calling'i destekler:

  • Kaçırılan Öğünler — Kaçırılan makro besinleri kalan öğünlere yeniden dağıtır
  • Plansız Yiyecek — Beklenmedik alımı telafi etmek için sonraki öğünleri ayarlar
  • Öğün Değişimleri — Makro hedeflerini korurken malzemeleri değiştirir
  • Aktivite Takibi — Kalori yakımını tahmin eder ve beslenme arabelleğini ayarlar

Her fonksiyon, gıda bazında beslenme profillerine sahip bir makro veri tabanı kullanır ve doğal hissettiren yanıtlar için hafif stokastik varyasyonla dinamik hesaplamalar yapar.

Yürütme Güvenliği

  • Çakışmayı önlemek için fonksiyon yürütmesi sırasında mikrofon girişi duraklatılır
  • Eski bağlamı önlemek için bekleyen ses çerçeveleri atılır
  • Fonksiyon yürütmesi başarısız olursa hata yanıtları nazikçe geri gönderilir
  • Fonksiyon tamamlandıktan hemen sonra normal akış devam eder

Arka Uç Mimari

FastAPI WebSocket Sunucusu

  • Tüm istemci iletişimi için tek WebSocket uç noktası
  • Oturum yaşam döngüsü yönetimi (başlatma, durdurma, ping/pong sağlık kontrolleri)
  • Oturum kilitleme ile aynı anda bir aktif oturum
  • Geliştirme ortamları için CORS middleware'i
  • İzleme için sağlık kontrolü uç noktası

Oturum Yönetimi

  • Oturumlar, istemci bağlantısında mod seçimiyle (yalnızca ses, kamera veya ekran) oluşturulur
  • Arka plan async görevler, ses yakalama, işleme ve oynatmayı eşzamanlı olarak yönetir
  • Kaynak temizliği ile sorunsuz bağlantı kesme
  • API anahtarı doğrulaması ve hata yayılımı

Çok Modlu Giriş (İsteğe Bağlı)

Sesin ötesinde, sistem isteğe bağlı görsel bağlamı destekler:

  • Kamera Modu — Konuşmalarda görsel bağlam için web kamerası karelerini (1fps) yayınlar
  • Ekran Modu — Ekrandaki bilgileri tartışmak için ekran içeriğini yakalar
  • Görüntüler iletimden önce yeniden boyutlandırılır ve sıkıştırılır
  • Görsel bağlam, AI'nın ilgili yanıtlar sağlama yeteneğini artırır

Ön Yüz Arayüzü

  • Oturum Kontrolü — Net durum göstergeleriyle dinlemeyi başlatma/durdurma
  • Durum Ekranı — Gerçek zamanlı bağlantı ve oturum durumu (boşta, bağlanıyor, aktif, hata)
  • Tema Desteği — Kalıcılık ile açık/koyu mod
  • Rehberli Tanıtım — İlk kez kullananlar için adım adım demo
  • WebSocket Yönetimi — Otomatik yeniden bağlantı mantığı

AI Model Yapılandırması

  • Yerel ses modalitesi (ayrı STT/TTS işlem hattı yok)
  • Birden fazla önceden ayarlanmış sesten yapılandırılabilir ses seçimi
  • Asistan kişiliğini, yanıt stilini ve dil işlemeyi tanımlayan sistem talimatları
  • Parametre şemaları ile mevcut tüm fonksiyonlar için araç tanımları
  • Aynı dilde yanıt ile otomatik dil algılama

Temel Özellikler

  1. Saniye Altı Gecikme — Yerel ses modeli STT/TTS işlem hattı yükünü ortadan kaldırır
  2. Gerçek Zamanlı Çift Yönlü Ses — Yığın başına < 50ms gecikme ile sürekli akış
  3. Function Calling — Konuşma sırasında yürütülen alana özgü hesaplamalar
  4. Doğal Kesinti — Kullanıcılar, özel komutlar olmadan asistanı doğal bir şekilde kesebilir
  5. Çok Dilli — Aynı dilde yanıtlarla otomatik dil algılama
  6. Çok Modlu Giriş — Görsel anlama için isteğe bağlı kamera ve ekran bağlamı
  7. Oturum Yönetimi — Kilitleme ve kaynak temizliği ile oturum yaşam döngüsü kontrolü
  8. Makro Hesaplamaları — Gıda bazında makro profillerle dinamik beslenme ayarlamaları
  9. Hata Kurtarma — Fonksiyon hatalarının ve ağ kesintilerinin sorunsuz yönetimi
  10. Genişletilebilir — Şema ve işleyici tanımlanarak yeni fonksiyonlar eklenebilir — mimari değişikliği gerektirmez

Sonuçlar

İlk Yanıt Gecikmesi: 500-1200ms (geleneksel STT→LLM→TTS işlem hatları için 3-5s'ye kıyasla)
Oturum Başlatma Süresi: ~200ms
Ses Akışı Gecikmesi: Yığın başına < 50ms (gerçek zamanlı)

Teknoloji Yığını

Google Gemini Live APIPythonFastAPIWebSocketPyAudioReactViteTailwind CSSOpenCVPillow

caseStudyDetail.more Vaka Çalışmaları

Daha fazla teknik uygulamamızı keşfedin

AI Accounting

AI Destekli Fatura İşleme (OCR ve QuickBooks Entegrasyonu ile)

Ayda yüzlerce satıcı faturasını işleyen orta ölçekli bir işletme, fatura verilerini AI/OCR kullanarak otomatik olarak çıkarıp muhasebe ve ödeme takibi için doğrudan QuickBooks'a senkronize ederek manuel veri girişini ortadan kaldırmak istedi.

Vaka Çalışmasını Oku
Video Encoding

İstemci Tarafında Reklam Ekleme (CSAI), SCTE-35 İşaretleyici Ayrıştırma ve Çok Platformlu Oynatıcı Entegrasyonu ile

Bir video akış platformu, sunucu tarafı reklam eklemenin sağlayamadığı tam reklam etkileşimi desteğiyle (tıklanabilir katmanlar, yardımcı banner'lar, atlama düğmeleri) kişiselleştirilmiş, cihaz düzeyinde reklam deneyimleri sunarak web, mobil ve akıllı TV uygulamaları genelinde Client-Side Ad Insertion (CSAI) uygulamasına ihtiyaç duyuyordu.

Vaka Çalışmasını Oku

İşletmenizi Dönüştürmeye Hazır mısınız?

Zorluklarınıza benzer çözümler uygulamamızın yollarını konuşalım.

İletişime GeçincaseStudyDetail.viewAllCaseStudies
Fonksiyon Yürütme: Alan hesaplamaları konuşma akışı içinde tamamlandı
Kullanıcı Deneyimi: Kesinti desteği ile doğal sohbet hissi
Web Scraping

Yapay Zeka Destekli Blog İçeriği Kazıma ve Oluşturma Platformu

Bir medya şirketi, mevcut web içeriğini kazıyarak, yapay zeka kullanarak analiz ederek ve çıkarılan verilerden orijinal, SEO odaklı blog gönderileri oluşturarak blog içeriği oluşturmayı otomatikleştirebilecek akıllı bir içerik platformuna ihtiyaç duyuyordu.

Vaka Çalışmasını Oku

Sıkça Sorulan Sorular

MicrocosmWorks, kullanıcı konuşmasını gerçek zamanlı parçalar halinde ASR motoruna aktaran, kullanıcı konuşmasını bitirmeden önce streaming transcription kullanarak LLM çıkarımına başlayan ve yanıtın ilk token'larında text-to-speech synthesis'i başlatan çift yönlü bir WebSocket sesli boru hattı tasarladı. Bu boru hattı yaklaşımı, konuşma sonundan ilk ses çıkışına kadar 800 ms'nin altında yanıt gecikmeleri elde eder ve bu da kullanıcılar tarafından doğal bir konuşma sırası değişimi olarak algılanır.

MicrocosmWorks, LLM'in konuşma bağlamına göre randevu rezervasyonu yapma, veritabanlarını sorgulama veya iş akışlarını tetikleme gibi önceden tanımlanmış API'leri çağırabildiği yapılandırılmış function calling'i entegre etti ve sonuçlar arayan kişiye doğal bir şekilde geri söylenir. Sistem, ödemeler veya iptaller gibi yüksek riskli eylemler için onay akışları içerir; burada asistan ayrıntıları sözlü olarak onaylar ve yürütmeden önce arayanın açık onayını bekler.

Evet, MicrocosmWorks, arayanların asistanın yanıtının ortasında kesintiye uğratmasına olanak tanıyan barge-in tespitini uyguladı; bu sayede ses çalmayı anında durdurarak ve yeni ifadeyi işleyerek. ASR hattı, gürültü engelleme ön işlemeyi içerir ve farklı aksanlar üzerinde ince ayar yapılmış modelleri destekler; arabalar, ofisler veya kamusal alanlardan yapılan telefon görüşmelerine özgü gürültülü ortamlarda %90'ın üzerinde transkripsiyon doğruluğu elde eder.

MicrocosmWorks, sesli asistanı SIP trunk entegrasyonu ve Twilio bağlantısı ile geliştirdi. Bu sayede arayanların herhangi bir uygulama yüklemesini veya özel bir arayüz kullanmasını gerektirmeden, mevcut işletme telefon numaraları, IVR sistemleri ve çağrı merkezi platformları üzerinde dağıtım desteklenmektedir. Platform, çağrı yönlendirme, kuyruk yönetimi ve AI bir konuşmanın insan uzmanlığı gerektirdiğini belirlediğinde insan temsilcilere sıcak aktarımları yönetir.

MicrocosmWorks, saatte 30-50 dolar arasında değişen oranlarla özel sesli AI asistanları geliştirir ve ilk geliştirme maliyeti yönetilen platformların kurulum ücretlerini aşsa da, özel bir çözüm, Dialogflow CX veya Amazon Lex gibi platformların uyguladığı ve yüksek çağrı hacimlerinde önemli hale gelen dakikalık kullanım ücretlerinden kaçınır. Özel geliştirmeler ayrıca, yönetilen platformların katı diyalog akışı paradigmalarıyla kısıtladığı LLM, voice persona ve function calling mantığı üzerinde tam kontrol sağlar.