Xiaomi membuka sumber OmniVoice: sebuah model yang mencakup kloning suara dalam 646 bahasa

robot
Pembuatan abstrak sedang berlangsung

Berita dari Coinjie Wang, Laboratorium AI Xiaomi merilis generasi baru tim Kaldi yang membuka kode OmniVoice, sebuah model TTS (teks ke suara) kloning suara tanpa contoh yang mendukung 646 bahasa. Model ini mampu mengkloning suara dengan beberapa detik audio referensi, mendukung konversi lintas bahasa. Kode, bobot, dan data pelatihan semuanya bersifat open source, menggunakan lisensi Apache-2.0. Arsitektur OmniVoice mengadopsi pendekatan minimalis, dengan model hanya memiliki satu Transformer dua arah, langsung memetakan teks ke token akustik multi-kodebook, tanpa pipeline dua tahap. Data pelatihan berasal dari 50 dataset suara open source, setelah proses pengurangan noise dan penyaringan kualitas, total mencapai 580.000 jam. Dalam pengujian di 24 bahasa, model ini melebihi beberapa sistem komersial dalam hal kemiripan suara dan kefasihan, dan dalam pengujian di 102 bahasa, kefasihan mendekati bahkan melebihi rekaman asli. Selain kloning suara, model ini juga mendukung penyesuaian suara berdasarkan deskripsi teks, serta fitur pengurangan noise otomatis dari audio referensi berisik.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan