MicrocosmWorksابتكار وتصميم الكون الرقمي
من نحناتصل بنا
MicrocosmWorksابتكار وتصميم الكون الرقمي

نقدم حلول تقنية المعلومات المهمة. نحن شغوفون بالتقنية والأمان ومساعدة الشركات على النمو من خلال بنية تحتية موثوقة ومبتكرة لتقنية المعلومات.

[email protected]
+91 7011868196
New Delhi, India

مركز نمو AI

مركز AIابتكار الشركات الناشئةمسرّع المؤسسات

الحلول

جميع الحلولتطبيقات الصحة واللياقةمنصة فيديو AIتطوير وكلاء AI

الموارد

رؤىأدلة القطاعاتمخططات حالات الاستخدامأنماط المعماريةدراسات الحالة

الشركة

من نحناتصل بناأعمالنا

الخدمات

الاستشارات الرقميةالبنية التحتية السحابيةتطوير SaaSتطوير AIتقنية الفيديو
تطوير ERPتخصيص Zohoتطوير Odooتكامل Salesforceتطوير CRM مخصص
تكامل QuickBooksحلول IoTتطوير بلوكتشين
استشارات الأمن السيبرانيالدعم التقني - L3

© 2026 MicrocosmWorks. جميع الحقوق محفوظة.

سياسة الخصوصيةشروط الخدمة
العودة إلى دراسات الحالة
AI Voice Agentsنُشر في June 22, 2026 · تم التحديث June 22, 2026

مساعد AI صوتي في الوقت الفعلي مع Function Calling و Bidirectional Audio Streaming

احتاجت منصة للياقة البدنية والتغذية إلى مساعد AI صوتي بالدرجة الأولى يمكنه الاستجابة للمستخدمين في الوقت الفعلي بمحادثات طبيعية، وتنفيذ حسابات خاصة بالمجال (تعديلات الوجبات، تتبع السعرات الحرارية)، والتحدث بالردود — كل ذلك بـ Sub-Second Latency لتجربة محادثة حقيقية.

ناقش مشروعك
realtime-voice-ai-assistant.webp
AI Voice Agents
Domain
10
Technologies
5
Key Results
Delivered
Status

التحدي

إن بناء مساعد AI صوتي جاهز للإنتاج قدم تحديات هندسية فريدة في الوقت الفعلي:

  • Latency — أضافت مسارات speech-to-text → LLM → text-to-speech التقليدية 3-5 ثوانٍ من التأخير، مما أخل بسير المحادثة
  • Function Calling — احتاج المساعد إلى تنفيذ منطق خاص بالمجال (حسابات التغذية، تعديلات خطة الوجبات) في منتصف المحادثة، وليس مجرد الدردشة
  • Audio Streaming — كان التدفق الصوتي ثنائي الاتجاه مطلوبًا للتدفق المستمر دون فجوات تخزين مؤقت أو مشاكل صدى
  • Context Awareness — احتاج المساعد إلى الحفاظ على سياق المحادثة عبر الأدوار مع التعامل مع المقاطعات
  • Multi-Language — تحدث المستخدمون بلغات مختلفة وتوقعوا استجابات بنفس اللغة
  • Session Isolation — احتاجت كل جلسة صوتية إلى إدارة حالة مستقلة دون cross-talk

حلنا

لقد قمنا ببناء مساعد AI صوتي في الوقت الفعلي مدعوم بـ Google Gemini Live API مع إمكانيات صوتية أصلية، و Function Calling مخصص للحسابات الخاصة بالمجال، وواجهة أمامية (React frontend) مع تدفق صوتي يعتمد على WebSocket.

البنية

  • نموذج AI: Gemini مع إدخال/إخراج صوتي أصلي و Function Calling
  • الواجهة الخلفية (Backend): Python/FastAPI مع نقطة نهاية WebSocket للصوت ثنائي الاتجاه
  • مسار الصوت (Audio Pipeline): PyAudio لإدخال/إخراج الميكروفون/السماعات مع التدفق في الوقت الفعلي
  • الواجهة الأمامية (Frontend): React مع Vite و Tailwind CSS لواجهة مستخدم التحكم في الجلسة
  • الاتصال: WebSocket لرسائل JSON منخفضة Latency ونقل الصوت الثنائي
  • متعدد الوسائط (Multimodal): التقاط اختياري للكاميرا والشاشة للسياق البصري

مسار الصوت في الوقت الفعلي

التدفق ثنائي الاتجاه

يحافظ النظام على تدفقات صوتية مستمرة في كلا الاتجاهين:

  • الإدخال: صوت الميكروفون الملتقط بتردد 16kHz أحادي، مقسم إلى إطارات صغيرة، ويتم بثه إلى نموذج AI في الوقت الفعلي
  • الإخراج: الكلام الذي يولده AI يتم استقباله بتردد 24kHz وتشغيله عبر السماعات فورًا
  • لا تجميع (No Batching): يتم إرسال أجزاء الصوت كما تم التقاطها — لا توجد تأخيرات تجميع
  • معالجة المقاطعات (Interrupt Handling): يمكن للمستخدم مقاطعة المساعد في منتصف الرد بشكل طبيعي

معالجة الصوت

  • تنسيق 16-bit PCM لكل من الإدخال والإخراج
  • معدلات عينة منفصلة محسّنة للكلام (التقاط 16kHz، تشغيل 24kHz)
  • أحجام مخازن مؤقتة صغيرة لأقل Latency
  • تدفق مستمر بدون فجوات بدء/إيقاف بين الأدوار

دمج Function Calling

كيف يعمل

يمكن لنموذج AI استدعاء دوال Python المحلية في منتصف المحادثة عندما تكون هناك حاجة لحسابات خاصة بالمجال:

  1. يتحدث المستخدم بطلب (مثلاً، "فاتني الغداء اليوم")
  2. يقوم نموذج AI بنسخ وفهم النية
  3. يحدد النموذج أن هناك حاجة لـ Function Call ويرسل طلبًا منظمًا
  4. تستخرج الواجهة الخلفية اسم الدالة والوسائط و call ID
  5. تنفذ الدالة المحلية الحساب الخاص بالمجال
  6. يتم إرسال النتيجة مرة أخرى إلى النموذج كاستجابة منظمة
  7. ينتج النموذج استجابة صوتية بلغة طبيعية تتضمن النتيجة

وظائف المجال

يدعم النظام Function Calling التي تركز على التغذية لسيناريوهات مثل:

  • الوجبات الفائتة — يعيد توزيع المغذيات الكبرى الفائتة عبر الوجبات المتبقية
  • طعام غير مخطط له — يعدل الوجبات القادمة لتعويض السعرات الحرارية غير المتوقعة
  • بدائل الوجبات — يستبدل المكونات مع الحفاظ على أهداف المغذيات الكبرى
  • تتبع النشاط — يقدّر حرق السعرات الحرارية ويعدل مخزن التغذية المؤقت

تستخدم كل دالة قاعدة بيانات للمغذيات الكبرى مع ملفات تعريف غذائية لكل طعام وتقوم بإجراء حسابات ديناميكية مع اختلاف عشوائي طفيف للحصول على استجابات طبيعية.

سلامة التنفيذ

  • يتم إيقاف إدخال الميكروفون مؤقتًا أثناء تنفيذ الدالة لمنع التداخل
  • يتم إسقاط إطارات الصوت المعلقة لتجنب السياق القديم
  • يتم إرسال استجابات الأخطاء بشكل سليم إذا فشل تنفيذ الدالة
  • يستأنف التدفق العادي فورًا بعد اكتمال الدالة

بنية الواجهة الخلفية (Backend Architecture)

خادم FastAPI WebSocket

  • نقطة نهاية WebSocket واحدة لجميع اتصالات العميل
  • إدارة دورة حياة الجلسة (بدء، إيقاف، فحوصات صحة ping/pong)
  • جلسة نشطة واحدة في كل مرة مع قفل الجلسة
  • برمجيات CORS الوسيطة لبيئات التطوير
  • نقطة نهاية فحص الصحة للمراقبة

إدارة الجلسات

  • يتم إنشاء الجلسات عند اتصال العميل مع اختيار الوضع (صوت فقط، كاميرا، أو شاشة)
  • تتعامل المهام غير المتزامنة في الخلفية مع التقاط الصوت ومعالجته وتشغيله بشكل متزامن
  • فصل سليم مع تنظيف الموارد
  • التحقق من صحة مفتاح API ونشر الأخطاء

إدخال متعدد الوسائط (Multimodal Input) (اختياري)

بالإضافة إلى الصوت، يدعم النظام سياقًا بصريًا اختياريًا:

  • وضع الكاميرا — يبث إطارات كاميرا الويب (1fps) للسياق البصري في المحادثات
  • وضع الشاشة — يلتقط محتوى الشاشة لمناقشة المعلومات المعروضة على الشاشة
  • يتم تغيير حجم الصور وضغطها قبل الإرسال
  • يعزز السياق البصري قدرة AI على تقديم استجابات ذات صلة

واجهة الواجهة الأمامية (Frontend Interface)

  • التحكم في الجلسة — بدء/إيقاف الاستماع بمؤشرات حالة واضحة
  • عرض الحالة — اتصال في الوقت الفعلي وحالة الجلسة (خامل، متصل، نشط، خطأ)
  • دعم السمات — وضع فاتح/داكن مع استمرارية
  • تجول إرشادي (Guided Walkthrough) — عرض توضيحي خطوة بخطوة للمستخدمين الجدد
  • إدارة WebSocket — منطق إعادة الاتصال التلقائي

تكوين نموذج AI

  • نمط صوتي أصلي (لا يوجد مسار STT/TTS منفصل)
  • اختيار صوت قابل للتكوين من عدة أصوات محددة مسبقًا
  • تعليمات النظام التي تحدد شخصية المساعد وأسلوب الاستجابة ومعالجة اللغة
  • تعريفات الأدوات لجميع الوظائف المتاحة مع مخططات المعلمات
  • الكشف التلقائي عن اللغة مع الاستجابة بنفس اللغة

الميزات الرئيسية

  1. Sub-Second Latency — يلغي نموذج الصوت الأصلي تكلفة مسار STT/TTS
  2. Real-Time Bidirectional Audio — تدفق مستمر بـ Latency أقل من 50 مللي ثانية لكل جزء
  3. Function Calling — حسابات خاصة بالمجال تنفذ في منتصف المحادثة
  4. مقاطعة طبيعية (Natural Interruption) — يمكن للمستخدمين مقاطعة المساعد بشكل طبيعي دون أوامر خاصة
  5. Multi-Language — الكشف التلقائي عن اللغة مع استجابات بنفس اللغة
  6. Multimodal Input — سياق اختياري للكاميرا والشاشة للفهم البصري
  7. إدارة الجلسات (Session Management) — التحكم في دورة حياة الجلسة مع القفل وتنظيف الموارد
  8. حسابات المغذيات الكبرى (Macro Calculations) — تعديلات غذائية ديناميكية مع ملفات تعريف المغذيات الكبرى لكل طعام
  9. استعادة الأخطاء (Error Recovery) — معالجة سليمة لأعطال الوظائف وانقطاعات الشبكة
  10. قابل للتوسع (Extensible) — إضافة وظائف جديدة بتحديد المخطط والمعالج — لا تغييرات في البنية

النتائج

First Response Latency: 500-1200 مللي ثانية (مقابل 3-5 ثوانٍ لمسارات STT→LLM→TTS التقليدية)
Session Start Time: حوالي 200 مللي ثانية
Audio Streaming Latency: أقل من 50 مللي ثانية لكل جزء (في الوقت الفعلي)

المكدس التقني

Google Gemini Live APIPythonFastAPIWebSocketPyAudioReactViteTailwind CSSOpenCVPillow

caseStudyDetail.more دراسات الحالة

استكشف المزيد من تطبيقاتنا التقنية

AI Accounting

معالجة الفواتير المدعومة بـ AI باستخدام OCR ودمج QuickBooks

كانت شركة متوسطة الحجم تعالج مئات فواتير الموردين شهريًا بحاجة إلى التخلص من إدخال البيانات يدويًا عن طريق استخلاص بيانات الفاتورة تلقائيًا باستخدام AI/OCR ومزامنتها مباشرةً مع QuickBooks للمسك الدفتري وتتبع المدفوعات.

اقرأ دراسة الحالة
Video Encoding

إدراج الإعلانات من جانب العميل (CSAI) مع تحليل علامات SCTE-35 وتكامل مشغلات متعددة المنصات

احتاجت منصة بث الفيديو إلى تطبيق إدراج الإعلانات من جانب العميل (CSAI) عبر تطبيقات الويب والجوال والتلفزيون الذكي المتصل – مما يتيح تجارب إعلانية مخصصة على مستوى الجهاز مع دعم كامل لتفاعل الإعلانات (تراكبات قابلة للنقر، إعلانات مصاحبة، أزرار تخطي) التي لا يمكن لتضمين الإعلانات من جانب الخادم توفيرها.

اقرأ دراسة الحالة

الأسئلة الشائعة

صممت MicrocosmWorks خط أنابيب صوتي ثنائي الاتجاه يعتمد على WebSocket يقوم ببث كلام المستخدم إلى محرك ASR في أجزاء زمنية حقيقية، ويبدأ استنتاج LLM قبل أن ينتهي المستخدم من التحدث باستخدام النسخ المتدفق، ويبدأ توليف النص إلى كلام عند تلقي الرموز الأولى للاستجابة. يحقق نهج خط الأنابيب هذا زمن استجابة يقل عن 800ms من نهاية الكلام إلى أول إخراج صوتي، وهو ما يراه المستخدمون بمثابة تبادل أدوار طبيعي في المحادثة.

دمجت MicrocosmWorks ميزة استدعاء الوظائف المنظمة (structured function calling) حيث يمكن لـ LLM استدعاء APIs محددة مسبقًا مثل حجز المواعيد، أو الاستعلام عن قواعد البيانات، أو تشغيل مهام سير العمل (workflows) بناءً على سياق المحادثة، مع نطق النتائج بشكل طبيعي للمتصل. يتضمن النظام تدفقات تأكيد للإجراءات عالية المخاطر مثل المدفوعات أو الإلغاءات، حيث يؤكد المساعد تفاصيلها شفهيًا وينتظر موافقة المتصل الصريحة قبل التنفيذ.

نعم، طبقت MicrocosmWorks ميزة barge-in detection التي تسمح للمتصلين بمقاطعة المساعد في منتصف الرد، مما يوقف تشغيل الصوت فورًا ويعالج التعبير الجديد. يتضمن مسار ASR معالجة مسبقة لإلغاء الضوضاء ويدعم نماذج تم ضبطها بدقة على لهجات متنوعة، مما يحقق دقة نسخ تتجاوز 90% في البيئات الصاخبة الشائعة في المكالمات الهاتفية من السيارات أو المكاتب أو الأماكن العامة.

قامت MicrocosmWorks ببناء المساعد الصوتي مع تكامل SIP trunk واتصال Twilio، مما يدعم النشر على أرقام هواتف الأعمال الحالية، وأنظمة IVR، ومنصات مراكز الاتصال دون الحاجة إلى قيام المتصلين بتثبيت أي app أو استخدام واجهة خاصة. تتولى المنصة call routing، و queue management، و warm transfers إلى وكلاء بشريين عندما يحدد AI أن المحادثة تتطلب خبرة بشرية.

تقوم MicrocosmWorks بتطوير مساعدين صوتيين مخصصين يعملون بالذكاء الاصطناعي (AI) بأسعار تتراوح بين $30-$50 في الساعة، وبينما تتجاوز تكلفة الإنشاء الأولية رسوم إعداد المنصات المُدارة، فإن الحل المخصص يتجنب رسوم الاستخدام بالدقيقة التي تفرضها منصات مثل Dialogflow CX أو Amazon Lex، والتي تصبح كبيرة عند أحجام المكالمات العالية. تمنحك الإنشاءات المخصصة أيضًا تحكمًا كاملاً في LLM، وشخصية الصوت (voice persona)، ومنطق استدعاء الوظائف (function calling logic)، والتي تقيدها المنصات المُدارة بنماذج تدفق الحوار الصارمة.

مستعد لتحويل عملك؟

دعنا نناقش كيف يمكننا تطبيق حلول مشابهة لتحدياتك.

تواصل معناcaseStudyDetail.viewAllCaseStudies
Function Execution: اكتملت حسابات المجال ضمن سير المحادثة
User Experience: شعور محادثة طبيعي مع دعم المقاطعة
Web Scraping

منصة مدعومة بالذكاء الاصطناعي لاستخراج وإنشاء محتوى المدونات

احتاجت شركة إعلامية إلى منصة محتوى ذكية يمكنها أتمتة إنشاء محتوى المدونات عن طريق استخراج محتوى الويب الحالي، وتحليله باستخدام AI، وتوليد منشورات مدونة أصلية ومحسنة لمحركات البحث (SEO) من البيانات المستخرجة.

اقرأ دراسة الحالة