XAI Grok 推進のカスタムボイス：2分間クローン、二段階の身分確認

2026-05-03 01:35:06

xAI は 5 月 2 日、公式ブログで Grok Custom Voices 機能をリリースし、ユーザーは xAI のコンソールで約 1 分間の自然な音声を録音するだけで、システムが 2 分以内に処理を完了し、TTS および Voice Agent API に利用できるカスタム音声モデルを生成します。同時にリリースされたのは Grok 4.3 モデル、そしてすべての音声リソースを集約する Voice Library インターフェースです。Custom Voices では、他人の声のクローンを防ぐために、二段階の身分認証メカニズムも設計されています。

機能：1 分間録音、2 分間生成、TTS と Voice Agent API を統合

ユーザーは xAI のコンソールで約 1 分間の自然な音声を録音し、バックエンドの処理フローは順に以下を実行します：（1）身分認証、（2）音声処理、（3）モデル生成。全体として 2 分以内に、利用可能な音声モデルを入手できます。Custom Voices はすべての TTS 機能を継承し、speech tags（音声タグ）、多言語出力、そして REST と WebSocket のストリーミングを含みます。xAI の TTS エンドポイントまたは Voice Agent API とそのまま組み合わせて、リアルタイムの会話エージェントに利用できます。

同時にリリースされた Voice Library は、xAI のコンソール内で音声リソースを統一管理するためのインターフェースで、閲覧、プレビュー、ユーザーが作成した音声および事前に用意された音声の管理ができ、複数のインターフェースに分散するのを防ぎます。事前に用意された音声ライブラリは 80 種以上の音声を提供し、28 種類の言語に対応しています。

二段階の身分認証：他人の声のクローンを防止

Custom Voices は音声生成の前に、2 つの身分認証の関門を設けます。第一段階では、ユーザーが認証用の文を読み上げると、システムがその音声を即時に文字起こしします。第二段階では、システムが認証文と完全な録音のそれぞれから speaker embedding（話者特徴ベクトル）を計算し、両者が同一人物に属するかを照合します。二段階の両方に合格して初めて、音声モデルの生成プロセスに進みます。

xAI は明確に次のように声明しています：ユーザーは既存の録音ファイルで声をクローンすることもできず、他人の声をクローンすることもできません。この設計は、「他人の公開講演の録音を入手してそのまま複製する」という利用シーンを排除し、声のクローンの範囲を「ユーザー本人が即時に録音する」という 1 つの入口に限定しています。AI 音声生成の悪用（電話詐欺、無許可のナレーションなど）に関心のある観察者にとって、このメカニズムは xAI による偽造対策課題への具体的な回答です。

後続の観察：Grok 4.3 と同時にリリース、Voice Library の拡充のリズム

Custom Voices と Grok 4.3 モデルは同日にリリースされ、xAI は「モデルのアップグレード + 音声ツールのライン一式の充実」を同じ波の発表として紐づけました。次に注目するのは、Voice Library の事前に用意された音声ライブラリが 80 種から上へどの程度拡大されるか、そして 28 言語の対応範囲がさらに繁体中国語などの小規模言語にまで広がるかどうかです。もう 1 つの注目点は、Voice Agent API の具体的な採用事例が公開されるかどうかで、とりわけカスタマーサポートの自動化、podcast の録音、多言語の顧客対応などのシーンでの統合例です。

この記事 xAI Grok が Custom Voices を公開：2 分間でクローン、二段階の身分認証は最初に鏈新聞 ABMedia に掲載されました。

免責事項：本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。