أعلن مدير العلاقات مع مطوري الذكاء الاصطناعي في Google، Logan Kilpatrick، في 15 أبريل عن إطلاق Gemini 3.1 Flash TTS — أحدث نموذج لتحويل النص إلى كلام من Google. يدعم هذا النموذج 70 لغة، والتحكم الدقيق على مستوى المخرجين المشهديين (scene direction)، ومستوى المتحدثين، بالإضافة إلى وسم الصوت، وهو متاح حاليًا للاستخدام في مساحة اللعب الخاصة بالصوت ضمن Google AI Studio وفي Gemini API.
الميزات الأساسية الأربعة
يحسّن Gemini 3.1 Flash TTS مقارنةً بسابقه بشكل ملحوظ عبر أربع ترقيات:
المخرج المشهدي (Scene Direction) — يمكنه ضبط سياق الصوت، مثل “الحديث بصوت منخفض في مقهى مزدحم” أو “الإعلان عن أخبار سارة بحماس”، حيث يقوم النموذج بتعديل النبرة وسرعة الكلام والتعبير العاطفي وفقًا للمشهد
التحكم على مستوى المتحدثين (Speaker-Level Specificity) — في حوارات متعددة الأدوار، يمكن تعيين خصائص صوت مختلفة لكل شخصية
وسوم الصوت (Audio Tags) — يدعم إدراج تعليمات لمؤثرات صوتية داخل النص للتحكم بالتوقفات وتغيرات النبرة وتفاصيل أخرى
دعم 70 لغة — توسيع كبير لتغطية اللغات المتعددة، بما في ذلك الصينية
أصوات أكثر طبيعية وأكثر تعبيرًا
وأكدت Google أن هذا النموذج يحقق تقدمًا في طبيعية الصوت. غالبًا ما يتعرض خرج نماذج TTS التقليدية لانتقادات لأنه “يبدو كأنه ذكاء اصطناعي”، وتُحاول Gemini 3.1 Flash TTS تضييق الفجوة مع الصوت البشري عبر تقديم تنوع أكبر في الإيقاع والتعبير العاطفي. وأشار Kilpatrick إلى أن التقدم من Gemini 2.5 إلى 3.1 “واضح للغاية”.
كيف يمكن للمطورين استخدامه
يمكن للمطورين استخدامه بطريقتين:
Google AI Studio الصوتية Playground — اختبار المعاينة مباشرة داخل واجهة الويب لتأثيرات الصوت
Gemini API — التكامل داخل التطبيقات، للاستخدام في سيناريوهات مثل المساعدات الصوتية، والكتب الصوتية، والتوليد التلقائي للـ Podcast، والدعم متعدد اللغات للعملاء
توسيع خط منتجات Gemini بشكل مستمر
يُعد Flash TTS جزءًا من السلسلة التي شهدت إطلاقًا مكثفًا مؤخرًا ضمن عائلة Gemini 3.1. وقبل ذلك كانت Google قد أطلقت Gemini Robotics ER 1.6 (استدلال رؤية الروبوتات)، وTab Tab Tab (تكملة prompt لـ Vibe Coding)، بالإضافة إلى ميزات المعاينة الخاصة بالتصميم. تعمل Google على توسيع Gemini من “نموذج محادثة” ليصبح منصة ذكاء اصطناعي متعددة الوسائط تشمل النص والصوت والرؤية والروبوتات.
هذه المقالة التي قدمت فيها Google Gemini 3.1 Flash TTS: دعم 70 لغة ومخرجين مشهديين، وصوت AI أكثر طبيعية ظهرت لأول مرة على موقع 鏈新聞 ABMedia.
مقالات ذات صلة
روبوت هونر Lightning يفوز بماراثون نصف الروبوتات البشرية في بكين 2026 بوقت 50:26
سهم Meta يرتفع بنسبة 1.73% بينما تخطط الشركة لتسريح 8,000 وظيفة بدءًا من 20 مايو
يذكر تقرير Google السنوي أن Gemini يحقق اعتراضًا في أجزاء من الثانية، ويمنع 99% من إعلانات الاحتيال
إيلون ماسك يدفع نحو “شيكات الدخل المرتفع الشامل” باعتبارها الحل النهائي لبطالة وظائف الذكاء الاصطناعي