تحليلات الفيديو متعددة التدفقات في الوقت الفعلي بتقنية AI مُسرّعة بواسطة GPU
احتاج مزود أمني للمؤسسات إلى معالجة تدفقات فيديو حية متعددة في وقت واحد باستخدام الكشف المدعوم بتقنية AI، وتقديم تنبيهات في الوقت الفعلي مع مزامنة دقيقة للطوابع الزمنية عبر بنية تحتية موزعة.
ناقش مشروعك
التحدي
تطلبت معالجة تدفقات RTSP متعددة باستخدام AI حل العديد من المشكلات المعقدة:
- قيود ذاكرة GPU حدّت من معالجة التدفقات المتزامنة
- تسبب انحراف الساعة بين أجهزة التسجيل وأجهزة الاستدلال في انحراف الطابع الزمني
- كانت نماذج الكشف التقليدية بطيئة للغاية لسيناريوهات التدفقات المتعددة في الوقت الفعلي
- تطلبت الأحداث أن تتطابق بدقة مع مواضع تشغيل الفيديو للمراجعة
حلنا
قمنا بتطوير منصة استدلال AI موزعة مُحسّنة للمعالجة متعددة التدفقات في الوقت الفعلي مع مزامنة الطوابع الزمنية القائمة على PTS.
البنية
- محرك الاستدلال: YOLO11 مع تسريع TensorRT على NVIDIA RTX 4000 Ada
- التتبع: تتبع الكائنات المتعددة ByteTrack مع تخصيص معرف (ID) دائم
- البث: MediaMTX لتحويل بروتوكول RTSP/HLS/RTMP
- الاتصال: قناتي WebSocket مزدوجتين (تراكب الكشوفات الحية + تنبيهات الأحداث)
- البنية التحتية: DigitalOcean (تسجيل) + RunPod (استدلال GPU)
تقنيات التحسين
- تسريع TensorRT - تجميع النموذج إلى TensorRT لاستدلال دفعي في حوالي 15 مللي ثانية
- التجميع المصغر (Micro-Batching) - تجميع الإطارات من تدفقات متعددة لكفاءة GPU
- إدارة الذاكرة - استخدام VRAM من 4-6 جيجابايت لـ 10-12 تدفقًا متزامنًا
- مزامنة الطوابع الزمنية PTS - مزامنة قائمة على طابع العرض (Presentation Timestamp) لتصحيح انحراف الساعة بين الأجهزة
- تصحيح الإزاحة عبر الأجهزة - حساب تلقائي لإزاحة الوقت بين العقد الموزعة
مسار الكشف
- الكشف عن الأشخاص/المركبات مع تسجيل مستوى الثقة
- التعرف على لوحات الترخيص واستخراج النص عبر EasyOCR
- الكشف عن الحرائق والدخان بحساسية قابلة للتكوين
- تحليلات السلوك (مدة التسكع، مناطق الاقتحام، عتبات الإشغال)
الميزات الرئيسية
- قناتي WebSocket مزدوجتين - تدفقات منفصلة لبيانات تراكب الفيديو وأحداث التنبيه
- مزامنة PTS - تتطابق الطوابع الزمنية للأحداث مع مواضع تشغيل الفيديو الدقيقة
- تتبع الكائنات الدائم - ByteTrack يحافظ على معرفات (IDs) الكائنات عبر الإطارات لتتبع متسق
- مناطق كشف قابلة للتكوين - تحديد مناطق الاقتحام/التسكع لكل كاميرا
- التوسع التلقائي (Auto-Scaling) - تخصيص ديناميكي للتدفقات بناءً على توفر GPU
النتائج
المكدس التقني
caseStudyDetail.more دراسات الحالة
استكشف المزيد من تطبيقاتنا التقنية
معالجة الفواتير المدعومة بـ AI باستخدام OCR ودمج QuickBooks
كانت شركة متوسطة الحجم تعالج مئات فواتير الموردين شهريًا بحاجة إلى التخلص من إدخال البيانات يدويًا عن طريق استخلاص بيانات الفاتورة تلقائيًا باستخدام AI/OCR ومزامنتها مباشرةً مع QuickBooks للمسك الدفتري وتتبع المدفوعات.
إدراج الإعلانات من جانب العميل (CSAI) مع تحليل علامات SCTE-35 وتكامل مشغلات متعددة المنصات
احتاجت منصة بث الفيديو إلى تطبيق إدراج الإعلانات من جانب العميل (CSAI) عبر تطبيقات الويب والجوال والتلفزيون الذكي المتصل – مما يتيح تجارب إعلانية مخصصة على مستوى الجهاز مع دعم كامل لتفاعل الإعلانات (تراكبات قابلة للنقر، إعلانات مصاحبة، أزرار تخطي) التي لا يمكن لتضمين الإعلانات من جانب الخادم توفيرها.
الأسئلة الشائعة
MicrocosmWorks حسّنت مسار العمل عن طريق تجميع الإطارات من تدفقات متعددة في استدعاءات استنتاج واحدة لـ GPU باستخدام NVIDIA TensorRT، مما يزيد من استخدام GPU ويحقق زمن استجابة أقل من 100 مللي ثانية لكل إطار حتى عند معالجة أكثر من 20 تدفقًا متزامنًا لكل عقدة. تستخدم البنية فك تشفير الفيديو المسرّع بواسطة CUDA لتفريغ استخراج الإطارات من CPU، مما يمنع عنق الزجاجة لفك التشفير الذي يحد عادةً من أداء التدفقات المتعددة.
قامت MicrocosmWorks ببناء معالجات تدفقات (stream handlers) متسامحة مع الأخطاء تحافظ على آلات حالة (state machines) خاصة بكل كاميرا، وتعيد الاتصال بالتدفقات المنقطعة تلقائيًا باستخدام exponential backoff، مع الاستمرار في معالجة جميع البثوث السليمة دون انقطاع. يتم اكتشاف الإطارات التالفة عبر التحقق من checksum وتجاوزها بسلاسة، ويقوم النظام بتتبع مقاييس صحة التدفقات (stream health metrics) التي تطلق تنبيهات عندما تنخفض موثوقية الكاميرا عن الحدود القابلة للتكوين.
نعم، توفر MicrocosmWorks مسارًا لتدريب النماذج المخصصة حيث تقوم بتزويد أمثلة مُعلّمة لأهداف الاكتشاف المحددة لديك، ويقوم الفريق بضبط نماذج الاكتشاف الأساسية للتعرف على الكائنات أو السلوكيات أو الحالات الشاذة الخاصة بالصناعة. تدعم المنصة التبديل السريع للنماذج في بيئة الإنتاج دون توقف، بحيث يمكنك تحسين دقة الاكتشاف بشكل متكرر كلما جمعت المزيد من بيانات التدريب من كاميراتك المنتشرة.
قامت MicrocosmWorks بتصميم منصة التحليلات على بنية معتمدة على Kubernetes حيث تتوسع GPU worker pods أفقيًا بناءً على عدد التدفقات وحمل المعالجة. إضافة السعة بسيطة مثل توفير GPU nodes إضافية، وتقوم طبقة التنسيق تلقائيًا بإعادة توزيع التدفقات عبر العاملين المتاحين، مع الحفاظ على latency و detection accuracy متسقين بغض النظر عن الحجم الكلي للنشر.
طبقت MicrocosmWorks خيارات المعالجة المسبقة على الحافة (edge-preprocessing) حيث يتم استخراج الإطارات الأولية والاستدلال الخفيف الاختياري بالقرب من الكاميرات، مما يقلل من النطاق الترددي المطلوب لمجموعة التحليلات المركزية عن طريق إرسال الإطارات الرئيسية فقط أو المقاطع التي يتم تشغيلها بواسطة الأحداث. بالنسبة للعمليات المنتشرة مركزياً بالكامل، تدعم المنصة تدفقات H.265 بدقة قابلة للتكوين، ويبلغ النطاق الترددي النموذجي 2-4 Mbps لكل تدفق 1080p بمعدل أخذ عينات تحليلات 15fps.
مستعد لتحويل عملك؟
دعنا نناقش كيف يمكننا تطبيق حلول مشابهة لتحدياتك.