小米開源OmniVoice:一個模型覆蓋646種語言的語音克隆

robot
摘要生成中

幣界網消息,小米AI實驗室新一代Kaldi團隊開源OmniVoice,一個支持646種語言的零樣本語音克隆TTS(文本轉語音)模型。該模型能夠用幾秒鐘的參考音頻克隆音色,支持跨語言轉換。代碼、權重和訓練數據全部開源,採用Apache-2.0許可。OmniVoice架構走極簡路線,模型僅有一個雙向Transformer,直接從文本映射到多碼本聲學token,無需兩階段流水線。訓練數據來自50個開源語音數據集,經過降噪和質量篩選後共58萬小時。該模型在24種語言的測試中,語音相似度和可懂度均超過多款商用系統,在102種語言的測試中,可懂度接近甚至優於真實錄音。除了語音克隆,模型還支持文字描述定制音色、帶噪參考音頻自動降噪等功能。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆