xAI は 5 月 2 日、公式ブログで Grok Custom Voices 機能をリリースし、ユーザーは xAI のコンソールで約 1 分間の自然な音声を録音するだけで、システムが 2 分以内に処理を完了し、TTS および Voice Agent API に利用できるカスタム音声モデルを生成します。同時にリリースされたのは Grok 4.3 モデル、そしてすべての音声リソースを集約する Voice Library インターフェースです。Custom Voices では、他人の声のクローンを防ぐために、二段階の身分認証メカニズムも設計されています。
機能:1 分間録音、2 分間生成、TTS と Voice Agent API を統合
ユーザーは xAI のコンソールで約 1 分間の自然な音声を録音し、バックエンドの処理フローは順に以下を実行します:(1)身分認証、(2)音声処理、(3)モデル生成。全体として 2 分以内に、利用可能な音声モデルを入手できます。Custom Voices はすべての TTS 機能を継承し、speech tags(音声タグ)、多言語出力、そして REST と WebSocket のストリーミングを含みます。xAI の TTS エンドポイントまたは Voice Agent API とそのまま組み合わせて、リアルタイムの会話エージェントに利用できます。
同時にリリースされた Voice Library は、xAI のコンソール内で音声リソースを統一管理するためのインターフェースで、閲覧、プレビュー、ユーザーが作成した音声および事前に用意された音声の管理ができ、複数のインターフェースに分散するのを防ぎます。事前に用意された音声ライブラリは 80 種以上の音声を提供し、28 種類の言語に対応しています。
二段階の身分認証:他人の声のクローンを防止
Custom Voices は音声生成の前に、2 つの身分認証の関門を設けます。第一段階では、ユーザーが認証用の文を読み上げると、システムがその音声を即時に文字起こしします。第二段階では、システムが認証文と完全な録音のそれぞれから speaker embedding(話者特徴ベクトル)を計算し、両者が同一人物に属するかを照合します。二段階の両方に合格して初めて、音声モデルの生成プロセスに進みます。
xAI は明確に次のように声明しています:ユーザーは既存の録音ファイルで声をクローンすることもできず、他人の声をクローンすることもできません。この設計は、「他人の公開講演の録音を入手してそのまま複製する」という利用シーンを排除し、声のクローンの範囲を「ユーザー本人が即時に録音する」という 1 つの入口に限定しています。AI 音声生成の悪用(電話詐欺、無許可のナレーションなど)に関心のある観察者にとって、このメカニズムは xAI による偽造対策課題への具体的な回答です。
後続の観察:Grok 4.3 と同時にリリース、Voice Library の拡充のリズム
Custom Voices と Grok 4.3 モデルは同日にリリースされ、xAI は「モデルのアップグレード + 音声ツールのライン一式の充実」を同じ波の発表として紐づけました。次に注目するのは、Voice Library の事前に用意された音声ライブラリが 80 種から上へどの程度拡大されるか、そして 28 言語の対応範囲がさらに繁体中国語などの小規模言語にまで広がるかどうかです。もう 1 つの注目点は、Voice Agent API の具体的な採用事例が公開されるかどうかで、とりわけカスタマーサポートの自動化、podcast の録音、多言語の顧客対応などのシーンでの統合例です。
この記事 xAI Grok が Custom Voices を公開:2 分間でクローン、二段階の身分認証 は最初に 鏈新聞 ABMedia に掲載されました。
関連記事
Solana FoundationとGoogle CloudがPay.shのAI決済ゲートウェイを発表、50以上のAPIプロバイダーをサポート
WorldClaw と WLFI が WorldRouter をローンチし、300+ の AI モデルへのアクセスを 30% 割引のコストで提供
Cipher Digital、ビットコイン・マイナーがAIデータセンターへの転換を加速する中、第1四半期で1億1400万ドルの損失を計上