小米開源 OmniVoice,支援 646 種語言的零樣本語音克隆模型

根據 Beating,Xiaomi 的 AI Lab Kaldi 團隊已將 OmniVoice 進行開源。該模型是一種零樣本語音克隆的 TTS 模型,支援 646 種語言。該模型僅需幾秒的參考音訊即可克隆語音特徵,並能跨語言運作——同一個聲音可以合成中文、日文、韓文以及其他語言的語音。所有程式碼、權重與訓練資料皆在 Apache-2.0 授權下開源。

OmniVoice 採用簡化架構,使用單一雙向 Transformer,直接將文字對應到離散的聲學代幣,並在 PyTorch 中實現比即時快 40 倍的推論速度。OmniVoice 使用來自 50 個開源資料集的 580,000 小時音訊進行訓練,在針對 24 種測試語言的語音相似度與可懂度方面,表現優於商業系統;並在 102 種語言中達到或超過人類錄音的水準。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

重生影片推出 BACH AI 工具,用於最多 30 秒的多段式影片生成

Video Rebirth 於 5 月 7 日推出 BACH,這是一款工具,可從文字提示與參考影像生成最多 30 秒的多段式影片。該工具可在各鏡頭之間維持角色一致性,遵循相機指令,並產出原生 1080p 影片,包含音效、旁白以及

GateNews2小時前

Tether 發布 QVAC MedPsy 醫療 AI 模型,並在 17B 參數版本上取得 62.62 分

根據 Odaily,Tether AI Research Group 釋出了 QVAC MedPsy,這是一款醫療 AI 模型,旨在不依賴雲端的情況下可在智慧型手機與穿戴式裝置上本地運行。這款 17 億參數版本在七項醫療基準上取得 62.62 分,表現優於 Google 的 MedGemma-1.5-4B,領先 11.42 poi

GateNews2小時前

TCV 領投 $160M Corgi 保險 新創的 B 輪

Corgi 是一家總部位於美國的商業保險新創公司,據 TechCrunch 報導,該公司於 5 月 6 日宣布由 TCV 領投、估值 13 億美元的 B 輪融資募得 1.6 億美元。此輪融資還包含 Kindred Ventures、Leblon Capital 和 First Order Fund。這使得 Corgi 的累計融資總額達到 2.68

Crypto Frontier11小時前

B.AI 於 5 月 7 日超越 170 萬名用戶,推出獎勵計畫

根據 B.AI,該 AI 基礎設施平台在 5 月 7 日用戶數突破 170 萬。該平台主打隱私保護與代理經濟基礎設施,註冊後為新用戶提供 50 萬個免費額度,所有模型皆採零加價定價,並提供限時 1:1,

GateNews11小時前

Osome 削減 70+ 個角色,透過 AI 轉型將 EBITDA 提升 50%

根據 Tech in Asia,總部位於新加坡的企業管理平台 Osome 在過去兩年已裁撤超過 70 個職位,同時部署 AI 來處理合規任務,例如記錄交易與處理發票。執行長 Eugenio Ferrante 表示,公司放緩了收入增長速度 i

GateNews14小時前

施耐德電機今年將在馬來西亞開設東南亞訓練中心,AI 工具將能源使用量降低 2%-3%

根據路透社報導,施耐德電氣計劃於今年在馬來西亞開設一座東南亞培訓中心,以因應該地區因 AI 基礎設施擴張而導致的電力需求上升。該中心將培訓合作夥伴與客戶,內容涵蓋能源管理系統與資料中心設備。Schneider'

GateNews14小時前
留言
0/400
暫無留言