أطلقت Google Gemini 3.1 Flash TTS: يدعم 70 لغة وسيناريوهات متعددة لتوجيه المخرّجين، وصوت الذكاء الاصطناعي أكثر طبيعية

ChainNewsAbmedia

أعلن مدير العلاقات مع مطوري الذكاء الاصطناعي في Google، Logan Kilpatrick، في 15 أبريل عن إطلاق Gemini 3.1 Flash TTS — أحدث نموذج لتحويل النص إلى كلام من Google. يدعم هذا النموذج 70 لغة، والتحكم الدقيق على مستوى المخرجين المشهديين (scene direction)، ومستوى المتحدثين، بالإضافة إلى وسم الصوت، وهو متاح حاليًا للاستخدام في مساحة اللعب الخاصة بالصوت ضمن Google AI Studio وفي Gemini API.

الميزات الأساسية الأربعة

يحسّن Gemini 3.1 Flash TTS مقارنةً بسابقه بشكل ملحوظ عبر أربع ترقيات:

المخرج المشهدي (Scene Direction) — يمكنه ضبط سياق الصوت، مثل “الحديث بصوت منخفض في مقهى مزدحم” أو “الإعلان عن أخبار سارة بحماس”، حيث يقوم النموذج بتعديل النبرة وسرعة الكلام والتعبير العاطفي وفقًا للمشهد

التحكم على مستوى المتحدثين (Speaker-Level Specificity) — في حوارات متعددة الأدوار، يمكن تعيين خصائص صوت مختلفة لكل شخصية

وسوم الصوت (Audio Tags) — يدعم إدراج تعليمات لمؤثرات صوتية داخل النص للتحكم بالتوقفات وتغيرات النبرة وتفاصيل أخرى

دعم 70 لغة — توسيع كبير لتغطية اللغات المتعددة، بما في ذلك الصينية

أصوات أكثر طبيعية وأكثر تعبيرًا

وأكدت Google أن هذا النموذج يحقق تقدمًا في طبيعية الصوت. غالبًا ما يتعرض خرج نماذج TTS التقليدية لانتقادات لأنه “يبدو كأنه ذكاء اصطناعي”، وتُحاول Gemini 3.1 Flash TTS تضييق الفجوة مع الصوت البشري عبر تقديم تنوع أكبر في الإيقاع والتعبير العاطفي. وأشار Kilpatrick إلى أن التقدم من Gemini 2.5 إلى 3.1 “واضح للغاية”.

كيف يمكن للمطورين استخدامه

يمكن للمطورين استخدامه بطريقتين:

Google AI Studio الصوتية Playground — اختبار المعاينة مباشرة داخل واجهة الويب لتأثيرات الصوت

Gemini API — التكامل داخل التطبيقات، للاستخدام في سيناريوهات مثل المساعدات الصوتية، والكتب الصوتية، والتوليد التلقائي للـ Podcast، والدعم متعدد اللغات للعملاء

توسيع خط منتجات Gemini بشكل مستمر

يُعد Flash TTS جزءًا من السلسلة التي شهدت إطلاقًا مكثفًا مؤخرًا ضمن عائلة Gemini 3.1. وقبل ذلك كانت Google قد أطلقت Gemini Robotics ER 1.6 (استدلال رؤية الروبوتات)، وTab Tab Tab (تكملة prompt لـ Vibe Coding)، بالإضافة إلى ميزات المعاينة الخاصة بالتصميم. تعمل Google على توسيع Gemini من “نموذج محادثة” ليصبح منصة ذكاء اصطناعي متعددة الوسائط تشمل النص والصوت والرؤية والروبوتات.

هذه المقالة التي قدمت فيها Google Gemini 3.1 Flash TTS: دعم 70 لغة ومخرجين مشهديين، وصوت AI أكثر طبيعية ظهرت لأول مرة على موقع 鏈新聞 ABMedia.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

مقالات ذات صلة

نواب من ولاية كولورادو يقترحون استبدالًا لقانون للذكاء الاصطناعي لمعالجة مخاوف الصناعة

يتحرك نواب ولاية كولورادو لإلغاء واستبدال قانون الولاية الخاص بالذكاء الاصطناعي لعام 2024، SB24-205، بقواعد جديدة تُضيّق نطاق تنظيم الذكاء الاصطناعي مع معالجة مخاوف الصناعة بشأن أعباء الامتثال. ويقترح مشروع القانون الجديد، SB26-189، تنظيم أنظمة الذكاء الاصطناعي المستخدمة في

CryptoFrontierمنذ 5 س

تقدّم R0AR إلى جولة النهائي في PitchFest ضمن Consensus 2026، لكنه يفلت بصعوبة من قائمة أفضل 20

وفقاً لـ MetaversePost، تقدّم R0AR إلى جولة الاختيار النهائية ضمن CoinDesk's Consensus 2026 PitchFest في 4 مايو، ليفوّت بفارق ضئيل المراكز ضمن أفضل 20 شركة ناشئة من بين الشركات المختارة لعرضها مباشرة. جرى تقييم مبتكر Web3 والذكاء الاصطناعي إلى جانب شركات ناشئة عالية الإمكانات من أنحاء العالم في أحد مرافق الصناعة التي تعد

GateNewsمنذ 8 س

يسعى ماسك إلى تسوية بقيمة 150 مليار دولار مع OpenAI قبل المحاكمة، وتفشل محادثات التسوية

وبحسب وثيقة مقدمة للمحكمة، تواصل إيلون ماسك مع رئيس شركة OpenAI، غريغ بروكمان، في 26 أبريل، قبل يومين من بدء محاكمتهما في المحكمة الفيدرالية بمدينة أوكلاند، بهدف بحث تسوية. وعندما اقترح بروكمان أن تُسقط كلتا الجهتين ادعاءاتهما، رد ماسك بتهديدات قائلاً لبروكمان: "بحلول نهاية

GateNewsمنذ 9 س

يقبل "Cursor" عرض الاستحواذ من "SpaceX" بقيمة 60 مليار دولار، لكنه لن يتعاون مع "xAI" بشأن نماذج البرمجة

وبحسب موقع The Information، قبلت Cursor عرض استحواذ مشروط بقيمة 60 مليار دولار من SpaceX، على الرغم من أن الصفقة لم تُستكمل بعد. ولا توجد لدى الشركة خطط حالياً للتعاون مع وحدة الذكاء الاصطناعي التابعة لـ SpaceX xAI لتطوير نماذج البرمجة. وبدلاً من ذلك، تركز Cursor على تحسينه

GateNewsمنذ 9 س

إغلاق شركة Haun Ventures لصندوق بقيمة 1 مليار دولار في 4 مايو، مع توزيع رأس المال بين استثمارات العملات المشفرة في المراحل المبكرة والمتأخرة

بحسب بلومبرغ، أكملت Haun Ventures جولة جمع تمويل بقيمة 1 مليار دولار في 4 مايو، خُصص منها 500 مليون دولار للاستثمارات في المراحل المبكرة و500 مليون دولار للاستثمارات في المراحل المتأخرة. وسيتم توظيف رأس المال خلال العامين إلى الثلاثة أعوام المقبلة، مع التركيز على شركات ناشئة في مجال العملات المشفرة وتقنية البلوك تشين مع التوسع

GateNewsمنذ 9 س

رفعت OpenAI $4 مليار دولار لتأسيس مشروع مشترك للنشر، بقيمة 10 مليارات دولار

بحسب BlockBeats، في 4 مايو، رفعت OpenAI أكثر من $4 مليار دولار لتأسيس مشروع مشترك جديد يركز على مساعدة الشركات على تبنّي برمجياتها الخاصة بالذكاء الاصطناعي. يُدعم المشروع، الذي يُسمّى The Deployment Company، من 19 مستثمرًا، من بينهم TPG Inc. وBrookfield Asset Management،

GateNewsمنذ 10 س
تعليق
0/400
لا توجد تعليقات