Google Meluncurkan Gemini 3.1 Flash TTS dengan Ekspresi Emosional yang Ditingkatkan serta Kemampuan Multi-Pembicara

Pesan Gate News, 17 April — Google mengungkap Gemini 3.1 Flash TTS, model text-to-speech canggih dengan fitur ekspresi emosional dan kontrol yang ditingkatkan, pada 15 April. Model baru akan diluncurkan secara bertahap melalui API pengembang, Vertex AI untuk perusahaan, serta alat kolaborasi.

Kemampuan inti model ini mencakup tag audio berbasis bahasa alami untuk penyetelan kecepatan, intonasi, dan emosi, ditambah “Director Mode” untuk menentukan adegan dan peran karakter guna menghasilkan keluaran suara yang lebih bernuansa. Fitur multi-pembicara memungkinkan pembuatan dialog secara simultan, sehingga menghasilkan alur percakapan yang lebih natural dan cocok untuk podcast, konten audio, serta asisten AI. Model ini mendukung lebih dari 70 bahasa dan dialek, mencerminkan aksen dan ekspresi regional untuk pengalaman suara lokal di seluruh dunia.

Google menekankan performa dan efisiensi biaya, meraih skor tinggi pada tolok ukur evaluasi manusia buta (blind) sambil menurunkan biaya komputasi melalui arsitektur Flash—yang dirancang untuk adopsi skala besar di perusahaan. Audio yang dihasilkan menyertakan watermark SynthID untuk mengidentifikasi konten yang dihasilkan AI dan melawan misinformasi.

Langkah ini mencerminkan persaingan yang semakin ketat dalam antarmuka suara. OpenAI menggabungkan fitur suara real-time dengan AI percakapan untuk interaksi yang menyerupai manusia, sementara Meta memperluas investasi pada karakter AI dengan pengalaman sosial berbasis suara. Pengamat industri mencatat bahwa meskipun akting tingkat tinggi dan pekerjaan kreatif mungkin tetap digerakkan manusia untuk saat ini, pasar produksi yang berulang dan berskala besar bisa melihat adopsi AI secara bertahap dalam sektor dubbing, periklanan, dan buku audio.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Survei POLITICO: 45% Warga AS Mengatakan Investasi Kripto Terlalu Berisiko, 50% Lebih Percaya Bank

Menurut survei POLITICO, 45% orang Amerika percaya investasi kripto tidak setara dengan risiko, dengan sekitar 50% menyatakan mereka lebih mempercayai bank tradisional untuk melindungi uang mereka. Survei ini juga menemukan bahwa 44% responden percaya kecerdasan buatan berkembang terlalu cepat,

GateNews7jam yang lalu

Amazon Perluas Kerja Sama dengan OpenAI: Model Hadir di Bedrock, Eksklusivitas Microsoft Berakhir

OpenAI pada 3 Mei mengumumkan perluasan kerja sama dengan layanan cloud Amazon Web Services (AWS). Model OpenAI dan agen pengkodean Codex akan disediakan kepada pelanggan AWS melalui Amazon Bedrock. Menurut laporan CNBC, perluasan kali ini merupakan langkah penting setelah akhir kontrak eksklusif cloud antara OpenAI dan Microsoft pada akhir April—OpenAI beralih dari “hanya deployment di cloud Microsoft” ke strategi multi-cloud. Pada saat yang sama, AWS telah menyelesaikan integrasi awal produk OpenAI di platform Bedrock. Latar belakang: Kontrak eksklusif OpenAI–Microsoft berakhir, lisensi IP diperpanjang hingga 2032 Pada akhir April, OpenAI dan Microsoft mencapai kesepakatan baru: struktur sebelumnya yang memberikan “akses eksklusif Microsoft terhadap produk dan IP OpenAI” berakhir, Op

ChainNewsAbmedia9jam yang lalu

Para Peneliti Menerapkan Teknologi DPN-LE untuk Mengedit Sifat Kepribadian AI, Mengedit Hanya 0,5% dari Neuron

Menurut BlockBeats, pada 3 Mei peneliti AI Brian Roemmele mengungkapkan bahwa Zero-Human Company miliknya telah menerapkan teknologi DPN-LE (Dual Personality Neuron Localization and Editing) untuk menyesuaikan dengan tepat

GateNews9jam yang lalu

Claude Memeriksa Jam Setiap 15 Menit Setelah Mendapat Akses Alat untuk Mengatur Waktu

Menurut pengembang Om Patel, Claude AI mulai sering mengecek jam setelah memperoleh akses ke alat waktu pada 3 Mei, dengan model melakukan pengecekan setiap 15 menit. Pengamatan ini menyoroti bahwa model bahasa besar sebelumnya tidak memiliki persepsi waktu bawaan dan tidak mengetahui waktu saat ini atau

GateNews11jam yang lalu

Founders Fund Menutup Dana Utama $6 Miliar Terbesar Sejak Berdiri, pada 3 Mei

Menurut Bloomberg, Founders Fund menyelesaikan penggalangan dana untuk dana unggulan terbarunya senilai 6 miliar dolar AS pada 3 Mei, jauh melampaui dana sebelumnya yang sekitar 3,4 miliar dolar AS. Dana tersebut, yang didirikan bersama oleh miliarder Peter Thiel, akan fokus pada sektor-sektor berpertumbuhan tinggi termasuk kecerdasan

GateNews11jam yang lalu

Polling POLITICO Terbaru: 45% Warga AS Mengatakan Investasi Kripto Terlalu Berisiko, 44% Khawatir AI Maju Terlalu Cepat

Menurut jajak pendapat POLITICO, meski industri AI dan kripto menyuntikkan pendanaan politik yang signifikan ke pemilihan sela AS 2026, publik Amerika masih sangat skeptis terhadap kedua sektor tersebut. Survei menemukan bahwa 45% warga Amerika percaya berinvestasi dalam mata uang kripto tidak sebanding dengan

GateNews12jam yang lalu
Komentar
0/400
Tidak ada komentar