xAI 推出 Grok 語音 API,價格比競爭對手低 60%

伊隆·馬斯克的 xAI 發布 Grok 語音轉文字與文字轉語音 API,收費為每小時 0.10 美元,聲稱在企業轉錄基準中擁有最低錯誤率。

伊隆·馬斯克的 xAI 在 4 月 17 日推出了兩個獨立的音頻 API,將 Grok 的語音技術定位為 ElevenLabs、Deepgram 和 AssemblyAI 的直接競爭對手,價格具有競爭力。

Grok 語音轉文字 API 的批次處理收費為每小時 0.10 美元,實時串流則為每小時 0.20 美元。文字轉語音的價格為每百萬字符 4.20 美元。兩者都利用支援特斯拉車輛和 Starlink 客戶支援的相同基礎設施。

值得審視的基準聲稱

xAI 公布的詞錯誤率數據展現了一個有趣的故事。在電話通話實體識別方面——例如姓名、帳號、日期——Grok STT 聲稱錯誤率為 5.0%,而 ElevenLabs 為 12.0%,Deepgram 為 13.5%,AssemblyAI 為 21.3%。如果在實際應用中能夠保持這樣的差距,將是相當顯著的。

公司用一個棘手的測試案例來展示:轉錄威爾士名字如“Anghared Llewelyn Bowen”和“Oisin MacGiolla Phadraig”以及抵押貸款細節。Grok 完美無誤,沒有出錯。競爭模型在發音和日期格式方面則出現了不一致的失誤。

影片和播客轉錄的競爭較為激烈——Grok 和 ElevenLabs 的錯誤率都為 2.4%,Deepgram 和 AssemblyAI 分別稍遜,為 3.0% 和 3.2%。

開發者的技術功能

除了純粹的轉錄能力,xAI 還加入了一些企業客戶實際需要的功能:詞級時間戳、多聲道說話人辨識,以及支援超過 25 種語言並能無縫切換。

反文本正規化(Inverse Text Normalization)功能能自動將口語中的數字、日期和貨幣轉換為正確格式。“Four one four five five five one two three four” 會轉成電話號碼。“Six ninety-nine” 會變成 6.99 美元。這個小細節能省去後續處理的麻煩。

文字轉語音包含內嵌標籤,用於語調控制——如耳語、笑聲、嘆氣、強調、節奏調整。開發者可以注入情感細節,無需與複雜的音頻標記作鬥爭。

策略背景

此舉緊隨 xAI 在 2025 年 3 月收購 X 公司,並在擴展基礎設施合作夥伴關係之際推出。就在 API 發布前兩天,有報導指出 xAI 計劃為 Cursor 這家由 AI 驅動的程式設計新創公司提供計算能力。

自 2024 年 12 月運行的 Colossus 超級電腦提供了後端算力。xAI 似乎正將這些容量在多個領域變現——企業 AI、開發者工具,現在還有語音 API。

對於開發語音代理或轉錄工具的開發者來說,這個價格遠低於已建立的競爭者。Groks 的準確率聲稱在實際部署中是否能持續有效,仍是未解之謎。相關文件和速率限制已在 xAI 的 API 控制台提供,供準備測試的用戶使用。

圖片來源:Shutterstock

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言