AI Voice Agentsنُشر في June 22, 2026 · تم التحديث June 22, 2026

مساعد AI صوتي في الوقت الفعلي مع Function Calling و Bidirectional Audio Streaming

احتاجت منصة للياقة البدنية والتغذية إلى مساعد AI صوتي بالدرجة الأولى يمكنه الاستجابة للمستخدمين في الوقت الفعلي بمحادثات طبيعية، وتنفيذ حسابات خاصة بالمجال (تعديلات الوجبات، تتبع السعرات الحرارية)، والتحدث بالردود — كل ذلك بـ Sub-Second Latency لتجربة محادثة حقيقية.

ناقش مشروعك

AI Voice Agents

Domain

Technologies

Key Results

Delivered

Status

التحدي

إن بناء مساعد AI صوتي جاهز للإنتاج قدم تحديات هندسية فريدة في الوقت الفعلي:

Latency — أضافت مسارات speech-to-text → LLM → text-to-speech التقليدية 3-5 ثوانٍ من التأخير، مما أخل بسير المحادثة
Function Calling — احتاج المساعد إلى تنفيذ منطق خاص بالمجال (حسابات التغذية، تعديلات خطة الوجبات) في منتصف المحادثة، وليس مجرد الدردشة
Audio Streaming — كان التدفق الصوتي ثنائي الاتجاه مطلوبًا للتدفق المستمر دون فجوات تخزين مؤقت أو مشاكل صدى
Context Awareness — احتاج المساعد إلى الحفاظ على سياق المحادثة عبر الأدوار مع التعامل مع المقاطعات
Multi-Language — تحدث المستخدمون بلغات مختلفة وتوقعوا استجابات بنفس اللغة
Session Isolation — احتاجت كل جلسة صوتية إلى إدارة حالة مستقلة دون cross-talk

حلنا

لقد قمنا ببناء مساعد AI صوتي في الوقت الفعلي مدعوم بـ Google Gemini Live API مع إمكانيات صوتية أصلية، و Function Calling مخصص للحسابات الخاصة بالمجال، وواجهة أمامية (React frontend) مع تدفق صوتي يعتمد على WebSocket.

البنية

نموذج AI: Gemini مع إدخال/إخراج صوتي أصلي و Function Calling
الواجهة الخلفية (Backend): Python/FastAPI مع نقطة نهاية WebSocket للصوت ثنائي الاتجاه
مسار الصوت (Audio Pipeline): PyAudio لإدخال/إخراج الميكروفون/السماعات مع التدفق في الوقت الفعلي
الواجهة الأمامية (Frontend): React مع Vite و Tailwind CSS لواجهة مستخدم التحكم في الجلسة
الاتصال: WebSocket لرسائل JSON منخفضة Latency ونقل الصوت الثنائي
متعدد الوسائط (Multimodal): التقاط اختياري للكاميرا والشاشة للسياق البصري

مسار الصوت في الوقت الفعلي

التدفق ثنائي الاتجاه

يحافظ النظام على تدفقات صوتية مستمرة في كلا الاتجاهين:

الإدخال: صوت الميكروفون الملتقط بتردد 16kHz أحادي، مقسم إلى إطارات صغيرة، ويتم بثه إلى نموذج AI في الوقت الفعلي
الإخراج: الكلام الذي يولده AI يتم استقباله بتردد 24kHz وتشغيله عبر السماعات فورًا
لا تجميع (No Batching): يتم إرسال أجزاء الصوت كما تم التقاطها — لا توجد تأخيرات تجميع
معالجة المقاطعات (Interrupt Handling): يمكن للمستخدم مقاطعة المساعد في منتصف الرد بشكل طبيعي

معالجة الصوت

تنسيق 16-bit PCM لكل من الإدخال والإخراج
معدلات عينة منفصلة محسّنة للكلام (التقاط 16kHz، تشغيل 24kHz)
أحجام مخازن مؤقتة صغيرة لأقل Latency
تدفق مستمر بدون فجوات بدء/إيقاف بين الأدوار

دمج Function Calling

كيف يعمل

يمكن لنموذج AI استدعاء دوال Python المحلية في منتصف المحادثة عندما تكون هناك حاجة لحسابات خاصة بالمجال:

يتحدث المستخدم بطلب (مثلاً، "فاتني الغداء اليوم")
يقوم نموذج AI بنسخ وفهم النية
يحدد النموذج أن هناك حاجة لـ Function Call ويرسل طلبًا منظمًا
تستخرج الواجهة الخلفية اسم الدالة والوسائط و call ID
تنفذ الدالة المحلية الحساب الخاص بالمجال
يتم إرسال النتيجة مرة أخرى إلى النموذج كاستجابة منظمة
ينتج النموذج استجابة صوتية بلغة طبيعية تتضمن النتيجة

وظائف المجال

يدعم النظام Function Calling التي تركز على التغذية لسيناريوهات مثل:

الوجبات الفائتة — يعيد توزيع المغذيات الكبرى الفائتة عبر الوجبات المتبقية
طعام غير مخطط له — يعدل الوجبات القادمة لتعويض السعرات الحرارية غير المتوقعة
بدائل الوجبات — يستبدل المكونات مع الحفاظ على أهداف المغذيات الكبرى
تتبع النشاط — يقدّر حرق السعرات الحرارية ويعدل مخزن التغذية المؤقت

تستخدم كل دالة قاعدة بيانات للمغذيات الكبرى مع ملفات تعريف غذائية لكل طعام وتقوم بإجراء حسابات ديناميكية مع اختلاف عشوائي طفيف للحصول على استجابات طبيعية.

سلامة التنفيذ

يتم إيقاف إدخال الميكروفون مؤقتًا أثناء تنفيذ الدالة لمنع التداخل
يتم إسقاط إطارات الصوت المعلقة لتجنب السياق القديم
يتم إرسال استجابات الأخطاء بشكل سليم إذا فشل تنفيذ الدالة
يستأنف التدفق العادي فورًا بعد اكتمال الدالة

بنية الواجهة الخلفية (Backend Architecture)

خادم FastAPI WebSocket

نقطة نهاية WebSocket واحدة لجميع اتصالات العميل
إدارة دورة حياة الجلسة (بدء، إيقاف، فحوصات صحة ping/pong)
جلسة نشطة واحدة في كل مرة مع قفل الجلسة
برمجيات CORS الوسيطة لبيئات التطوير
نقطة نهاية فحص الصحة للمراقبة

إدارة الجلسات

يتم إنشاء الجلسات عند اتصال العميل مع اختيار الوضع (صوت فقط، كاميرا، أو شاشة)
تتعامل المهام غير المتزامنة في الخلفية مع التقاط الصوت ومعالجته وتشغيله بشكل متزامن
فصل سليم مع تنظيف الموارد
التحقق من صحة مفتاح API ونشر الأخطاء

إدخال متعدد الوسائط (Multimodal Input) (اختياري)

بالإضافة إلى الصوت، يدعم النظام سياقًا بصريًا اختياريًا:

وضع الكاميرا — يبث إطارات كاميرا الويب (1fps) للسياق البصري في المحادثات
وضع الشاشة — يلتقط محتوى الشاشة لمناقشة المعلومات المعروضة على الشاشة
يتم تغيير حجم الصور وضغطها قبل الإرسال
يعزز السياق البصري قدرة AI على تقديم استجابات ذات صلة

واجهة الواجهة الأمامية (Frontend Interface)

التحكم في الجلسة — بدء/إيقاف الاستماع بمؤشرات حالة واضحة
عرض الحالة — اتصال في الوقت الفعلي وحالة الجلسة (خامل، متصل، نشط، خطأ)
دعم السمات — وضع فاتح/داكن مع استمرارية
تجول إرشادي (Guided Walkthrough) — عرض توضيحي خطوة بخطوة للمستخدمين الجدد
إدارة WebSocket — منطق إعادة الاتصال التلقائي

تكوين نموذج AI

نمط صوتي أصلي (لا يوجد مسار STT/TTS منفصل)
اختيار صوت قابل للتكوين من عدة أصوات محددة مسبقًا
تعليمات النظام التي تحدد شخصية المساعد وأسلوب الاستجابة ومعالجة اللغة
تعريفات الأدوات لجميع الوظائف المتاحة مع مخططات المعلمات
الكشف التلقائي عن اللغة مع الاستجابة بنفس اللغة

الميزات الرئيسية

Sub-Second Latency — يلغي نموذج الصوت الأصلي تكلفة مسار STT/TTS
Real-Time Bidirectional Audio — تدفق مستمر بـ Latency أقل من 50 مللي ثانية لكل جزء
Function Calling — حسابات خاصة بالمجال تنفذ في منتصف المحادثة
مقاطعة طبيعية (Natural Interruption) — يمكن للمستخدمين مقاطعة المساعد بشكل طبيعي دون أوامر خاصة
Multi-Language — الكشف التلقائي عن اللغة مع استجابات بنفس اللغة
Multimodal Input — سياق اختياري للكاميرا والشاشة للفهم البصري
إدارة الجلسات (Session Management) — التحكم في دورة حياة الجلسة مع القفل وتنظيف الموارد
حسابات المغذيات الكبرى (Macro Calculations) — تعديلات غذائية ديناميكية مع ملفات تعريف المغذيات الكبرى لكل طعام
استعادة الأخطاء (Error Recovery) — معالجة سليمة لأعطال الوظائف وانقطاعات الشبكة
قابل للتوسع (Extensible) — إضافة وظائف جديدة بتحديد المخطط والمعالج — لا تغييرات في البنية

النتائج

First Response Latency: 500-1200 مللي ثانية (مقابل 3-5 ثوانٍ لمسارات STT→LLM→TTS التقليدية)

Session Start Time: حوالي 200 مللي ثانية

Audio Streaming Latency: أقل من 50 مللي ثانية لكل جزء (في الوقت الفعلي)

المكدس التقني

Google Gemini Live APIPythonFastAPIWebSocketPyAudioReactViteTailwind CSSOpenCVPillow

caseStudyDetail.more دراسات الحالة

استكشف المزيد من تطبيقاتنا التقنية

Kickly: منصة المشاريع المدعومة بالذكاء الاصطناعي للشركات الناشئة

Kickly هي منصة لإدارة المشاريع مدعومة بالذكاء الاصطناعي مصممة للشركات الناشئة — تجمع بين أتمتة المهام الذكية، والتعاون الفريقي، وتتبع التقدم في الوقت الفعلي في منتج واحد.

اقرأ دراسة الحالة

AI Accounting

معالجة الفواتير المدعومة بـ AI باستخدام OCR ودمج QuickBooks

كانت شركة متوسطة الحجم تعالج مئات فواتير الموردين شهريًا بحاجة إلى التخلص من إدخال البيانات يدويًا عن طريق استخلاص بيانات الفاتورة تلقائيًا باستخدام AI/OCR ومزامنتها مباشرةً مع QuickBooks للمسك الدفتري وتتبع المدفوعات.

اقرأ دراسة الحالة

الأسئلة الشائعة

صممت MicrocosmWorks خط أنابيب صوتي ثنائي الاتجاه يعتمد على WebSocket يقوم ببث كلام المستخدم إلى محرك ASR في أجزاء زمنية حقيقية، ويبدأ استنتاج LLM قبل أن ينتهي المستخدم من التحدث باستخدام النسخ المتدفق، ويبدأ توليف النص إلى كلام عند تلقي الرموز الأولى للاستجابة. يحقق نهج خط الأنابيب هذا زمن استجابة يقل عن 800ms من نهاية الكلام إلى أول إخراج صوتي، وهو ما يراه المستخدمون بمثابة تبادل أدوار طبيعي في المحادثة.

دمجت MicrocosmWorks ميزة استدعاء الوظائف المنظمة (structured function calling) حيث يمكن لـ LLM استدعاء APIs محددة مسبقًا مثل حجز المواعيد، أو الاستعلام عن قواعد البيانات، أو تشغيل مهام سير العمل (workflows) بناءً على سياق المحادثة، مع نطق النتائج بشكل طبيعي للمتصل. يتضمن النظام تدفقات تأكيد للإجراءات عالية المخاطر مثل المدفوعات أو الإلغاءات، حيث يؤكد المساعد تفاصيلها شفهيًا وينتظر موافقة المتصل الصريحة قبل التنفيذ.

نعم، طبقت MicrocosmWorks ميزة barge-in detection التي تسمح للمتصلين بمقاطعة المساعد في منتصف الرد، مما يوقف تشغيل الصوت فورًا ويعالج التعبير الجديد. يتضمن مسار ASR معالجة مسبقة لإلغاء الضوضاء ويدعم نماذج تم ضبطها بدقة على لهجات متنوعة، مما يحقق دقة نسخ تتجاوز 90% في البيئات الصاخبة الشائعة في المكالمات الهاتفية من السيارات أو المكاتب أو الأماكن العامة.

قامت MicrocosmWorks ببناء المساعد الصوتي مع تكامل SIP trunk واتصال Twilio، مما يدعم النشر على أرقام هواتف الأعمال الحالية، وأنظمة IVR، ومنصات مراكز الاتصال دون الحاجة إلى قيام المتصلين بتثبيت أي app أو استخدام واجهة خاصة. تتولى المنصة call routing، و queue management، و warm transfers إلى وكلاء بشريين عندما يحدد AI أن المحادثة تتطلب خبرة بشرية.

تقوم MicrocosmWorks بتطوير مساعدين صوتيين مخصصين يعملون بالذكاء الاصطناعي (AI) بأسعار تتراوح بين $30-$50 في الساعة، وبينما تتجاوز تكلفة الإنشاء الأولية رسوم إعداد المنصات المُدارة، فإن الحل المخصص يتجنب رسوم الاستخدام بالدقيقة التي تفرضها منصات مثل Dialogflow CX أو Amazon Lex، والتي تصبح كبيرة عند أحجام المكالمات العالية. تمنحك الإنشاءات المخصصة أيضًا تحكمًا كاملاً في LLM، وشخصية الصوت (voice persona)، ومنطق استدعاء الوظائف (function calling logic)، والتي تقيدها المنصات المُدارة بنماذج تدفق الحوار الصارمة.

مستعد لتحويل عملك؟

دعنا نناقش كيف يمكننا تطبيق حلول مشابهة لتحدياتك.

تواصل معنا caseStudyDetail.viewAllCaseStudies

مساعد AI صوتي في الوقت الفعلي مع Function Calling و Bidirectional Audio Streaming

التحدي

حلنا

البنية

مسار الصوت في الوقت الفعلي

التدفق ثنائي الاتجاه

معالجة الصوت

دمج Function Calling

كيف يعمل

وظائف المجال

سلامة التنفيذ

بنية الواجهة الخلفية (Backend Architecture)

خادم FastAPI WebSocket

إدارة الجلسات

إدخال متعدد الوسائط (Multimodal Input) (اختياري)

واجهة الواجهة الأمامية (Frontend Interface)

تكوين نموذج AI

الميزات الرئيسية

النتائج

المكدس التقني

caseStudyDetail.more دراسات الحالة

Kickly: منصة المشاريع المدعومة بالذكاء الاصطناعي للشركات الناشئة

معالجة الفواتير المدعومة بـ AI باستخدام OCR ودمج QuickBooks

الأسئلة الشائعة

مستعد لتحويل عملك؟

إدراج الإعلانات من جانب العميل (CSAI) مع تحليل علامات SCTE-35 وتكامل مشغلات متعددة المنصات