شركة aiOla الناشئة في مجال الذكاء الاصطناعي أطلقت حلاً جديدًا يمكنه ثورة في دقة التعرف على الصوت. النظام الذي أطلقته الشركة باسم “البوابة الذكية للصوت” يمكنه تحليل صوت المستخدم في الوقت الحقيقي والاتصال تلقائيًا بأكثر نماذج التعرف على الصوت ملاءمة. يقوم النظام باختيار النموذج الأمثل لمعالجة البيانات بعد تقييم خصائص اللغة المعقدة بشكل ديناميكي.
في العام الماضي، كشفت aiOla عن “DRAX”، وهو نموذج ذكاء اصطناعي للتعرف على الصوت يتغلب على قيود النماذج التقليدية باستخدام تقنية التعلم عبر التدفقات الموازية. يستطيع DRAX معالجة جميع الجمل في آن واحد، ويظهر أداء قويًا في مواجهة الضوضاء البيئية، والتغيرات في النغمة، والمتغيرات الواقعية الأخرى. استنادًا إلى هذه التقنية، أطلقت الشركة تقنية جديدة تسمى “QUASAR”، والتي تحلل خصائص الصوت، ونغمة المتحدث، ووجود الضوضاء، والسياق، وتختار تلقائيًا النموذج الأنسب من بين العديد من محركات التعرف التلقائي على الصوت.
على الرغم من وجود العديد من مزودي خدمات ASR مثل Whisper من OpenAI، Transcribe من أمازون، Qwen2 من علي بابا، وDeepgram، الذين ينافسون في سوق الذكاء الاصطناعي الصوتي من خلال تحسين الأداء في بيئات الضوضاء أو النغمة، إلا أن معظم الشركات لا تزال تعتمد على نموذج واحد فقط يحقق أفضل أداء في التقييمات القياسية. هذا يؤدي إلى أخطاء متكررة في التعرف في بيئات الاستخدام الفعلية، مما يسبب تراجعًا كبيرًا في تجربة المستخدم ويثير الانتقادات المستمرة.
قال أمير حراماتي، الشريك المؤسس والرئيس التنفيذي لـ aiOla، حول الوضع الحالي الذي تضطر فيه الشركات إلى التعامل مع عيوب نماذج ASR المحددة: “بعض النماذج تتفوق عند التعامل مع الإنجليزية الأمريكية، لكنها غالبًا ما تعجز أمام النغمة البريطانية أو بيئات الضوضاء.” وأكد: “QUASAR هو أول نظام يعامل التعرف على الصوت كمشكلة ديناميكية بدلاً من تقنية ثابتة.”
اختبرت aiOla هذا النظام داخليًا على مجموعة متنوعة من بيئات النغمة، والضوضاء الخلفية، والمحتوى المهني. وأظهرت النتائج أن النظام يمكنه بشكل ديناميكي اختيار أفضل محرك ASR في 88.8% من الطلبات لتحسين الدقة. من المتوقع أن تساهم هذه التقنية بشكل كبير في مجالات دعم العملاء، وتسجيل الاجتماعات، وأنظمة الرد الآلي، مما يعزز فهم الحوار بين الإنسان والآلة.
قال حراماتي: “مع تزايد اعتماد التعرف على الصوت كواجهة أساسية تربط الإنسان بالذكاء الاصطناعي، لم يعد من المقبول وجود أخطاء في التعرف.” ووصف QUASAR بأنه “تقنية تحول ASR إلى بنية تحتية حية”، وأضاف: “هذه ليست مجرد قفزة تقنية، بل ثورة يمكن أن تؤثر على مراكز الاتصال العالمية التي تتعامل مع مئات الملايين من المكالمات، والمطورين المستقلين الذين يضيفون وظائف الترجمة النصية، وغيرهم.”
تخطط aiOla لتعزيز فاعلية وموثوقية واجهات الذكاء الاصطناعي الصوتي بشكل كبير من خلال هذه التقنية، مما يخلق نقطة تحول هيكلية في نظام الذكاء الاصطناعي الصوتي بأكمله.