Tim Kaldi dari Laboratorium AI Xiaomi merilis OmniVoice sebagai sumber terbuka, mendukung kloning suara TTS tanpa contoh dalam 646 bahasa, dapat mengkloning suara dan melakukan konversi lintas bahasa dalam beberapa detik dengan audio referensi. Kode, bobot, dan data pelatihan semuanya bersifat open source (Apache-2.0). OmniVoice hanya menggunakan satu Transformer dua arah, memetakan teks langsung ke token akustik multi-kodebook, tanpa perlu pipeline dua tahap. Data pelatihan berasal dari 50 dataset sumber terbuka, setelah penyaringan denoising mencapai 580.000 jam. Dalam pengujian pada 24 bahasa, kualitas suara dan kefasihan melebihi banyak sistem komersial, dan dalam pengujian 102 bahasa, kefasihan mendekati bahkan melebihi rekaman asli. Juga mendukung penyesuaian suara berdasarkan deskripsi teks, serta denoising otomatis untuk audio referensi berisik.

CoinNetwork

2026-05-07 10:29:33

Pembuatan abstrak sedang berlangsung

Berita dari Coinjie Wang, Laboratorium AI Xiaomi merilis generasi baru tim Kaldi yang membuka kode OmniVoice, sebuah model TTS (teks ke suara) kloning suara tanpa contoh yang mendukung 646 bahasa. Model ini mampu mengkloning suara dengan beberapa detik audio referensi, mendukung konversi lintas bahasa. Kode, bobot, dan data pelatihan semuanya bersifat open source, menggunakan lisensi Apache-2.0. Arsitektur OmniVoice mengadopsi pendekatan minimalis, dengan model hanya memiliki satu Transformer dua arah, langsung memetakan teks ke token akustik multi-kodebook, tanpa pipeline dua tahap. Data pelatihan berasal dari 50 dataset suara open source, setelah proses pengurangan noise dan penyaringan kualitas, total mencapai 580.000 jam. Dalam pengujian di 24 bahasa, model ini melebihi beberapa sistem komersial dalam hal kemiripan suara dan kefasihan, dan dalam pengujian di 102 bahasa, kefasihan mendekati bahkan melebihi rekaman asli. Selain kloning suara, model ini juga mendukung penyesuaian suara berdasarkan deskripsi teks, serta fitur pengurangan noise otomatis dari audio referensi berisik.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GateSquareMayTradingShare
553.05K Popularitas
#
BTCPullback
106.31M Popularitas
#
IsraelStrikesIranBTCPlunges
43.68K Popularitas
#
CLARITYActStalled
3.28M Popularitas
#
CryptoStocksRally
1.42M Popularitas

Sematkan

peta situs

Xiaomi membuka sumber OmniVoice: sebuah model yang mencakup kloning suara dalam 646 bahasa

Topik Trending

GateSquareMayTradingShare

BTCPullback

IsraelStrikesIranBTCPlunges

CLARITYActStalled

CryptoStocksRally

Sematkan