XAI Grok 推進のカスタムボイス:2分間クローン、二段階の身分確認

ChainNewsAbmedia

xAI は 5 月 2 日、公式ブログで Grok Custom Voices 機能をリリースし、ユーザーは xAI のコンソールで約 1 分間の自然な音声を録音するだけで、システムが 2 分以内に処理を完了し、TTS および Voice Agent API に利用できるカスタム音声モデルを生成します。同時にリリースされたのは Grok 4.3 モデル、そしてすべての音声リソースを集約する Voice Library インターフェースです。Custom Voices では、他人の声のクローンを防ぐために、二段階の身分認証メカニズムも設計されています。

機能:1 分間録音、2 分間生成、TTS と Voice Agent API を統合

ユーザーは xAI のコンソールで約 1 分間の自然な音声を録音し、バックエンドの処理フローは順に以下を実行します:(1)身分認証、(2)音声処理、(3)モデル生成。全体として 2 分以内に、利用可能な音声モデルを入手できます。Custom Voices はすべての TTS 機能を継承し、speech tags(音声タグ)、多言語出力、そして REST と WebSocket のストリーミングを含みます。xAI の TTS エンドポイントまたは Voice Agent API とそのまま組み合わせて、リアルタイムの会話エージェントに利用できます。

同時にリリースされた Voice Library は、xAI のコンソール内で音声リソースを統一管理するためのインターフェースで、閲覧、プレビュー、ユーザーが作成した音声および事前に用意された音声の管理ができ、複数のインターフェースに分散するのを防ぎます。事前に用意された音声ライブラリは 80 種以上の音声を提供し、28 種類の言語に対応しています。

二段階の身分認証:他人の声のクローンを防止

Custom Voices は音声生成の前に、2 つの身分認証の関門を設けます。第一段階では、ユーザーが認証用の文を読み上げると、システムがその音声を即時に文字起こしします。第二段階では、システムが認証文と完全な録音のそれぞれから speaker embedding(話者特徴ベクトル)を計算し、両者が同一人物に属するかを照合します。二段階の両方に合格して初めて、音声モデルの生成プロセスに進みます。

xAI は明確に次のように声明しています:ユーザーは既存の録音ファイルで声をクローンすることもできず、他人の声をクローンすることもできません。この設計は、「他人の公開講演の録音を入手してそのまま複製する」という利用シーンを排除し、声のクローンの範囲を「ユーザー本人が即時に録音する」という 1 つの入口に限定しています。AI 音声生成の悪用(電話詐欺、無許可のナレーションなど)に関心のある観察者にとって、このメカニズムは xAI による偽造対策課題への具体的な回答です。

後続の観察:Grok 4.3 と同時にリリース、Voice Library の拡充のリズム

Custom Voices と Grok 4.3 モデルは同日にリリースされ、xAI は「モデルのアップグレード + 音声ツールのライン一式の充実」を同じ波の発表として紐づけました。次に注目するのは、Voice Library の事前に用意された音声ライブラリが 80 種から上へどの程度拡大されるか、そして 28 言語の対応範囲がさらに繁体中国語などの小規模言語にまで広がるかどうかです。もう 1 つの注目点は、Voice Agent API の具体的な採用事例が公開されるかどうかで、とりわけカスタマーサポートの自動化、podcast の録音、多言語の顧客対応などのシーンでの統合例です。

この記事 xAI Grok が Custom Voices を公開:2 分間でクローン、二段階の身分認証 は最初に 鏈新聞 ABMedia に掲載されました。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

インドの食料品スタートアップ「Apna Mart」が資金調達ラウンド後、従業員を10%削減

The Economic Timesによると、インドの食料品宅配スタートアップ「Apna Mart」は最近、AI主導の自動化と、バンガロールからグルガラムへの本社移転のさなか、従業員の約10%を削減し、35〜40人の従業員に影響が出た。 同社は、影響を受けた従業員には2に相当する退職金が支払われると述べた。

GateNews48分前

インドのサイバーセキュリティ企業がAIを活用し、脆弱性テストを数時間に短縮しています

The Economic Timesによると、IndusfaceやAstra Securityを含むインドのサイバーセキュリティ企業が、大規模言語モデルに基づくAIエージェントを採用し、ソフトウェアの脆弱性テストを数日または数週間から数時間へ加速させている。 この変化は、攻撃者のスピードの向上と、AIツールの台頭する能力を反映している。

CryptoFrontier5時間前

Solana FoundationとGoogle CloudがPay.shのAI決済ゲートウェイを発表、50以上のAPIプロバイダーをサポート

Odailyによると、Solana FoundationとGoogle Cloudは共同でAIペイメントゲートウェイ「Pay.sh」を立ち上げました。これはAIエージェントが、従来のアカウントを必要とせず、リクエストごとにオンチェーンのステーブルコインを使ってAPIサービスを呼び出せるようにするものです。x402プロトコルを基盤にしており、Tempoと対応しています。

GateNews7時間前

WorldClaw と WLFI が WorldRouter をローンチし、300+ の AI モデルへのアクセスを 30% 割引のコストで提供

Foresight Newsによると、AIエージェントのオペレーティングシステムであるWorldClawは、トランプ一家の暗号プロジェクトWLFIと提携し、WorldRouterを立ち上げました。このプラットフォームでは、単一のアカウントで300以上の主要なAIモデルにアクセスでき、各モデルに比べて手数料はおよそ30%低いとのことです。

GateNews8時間前

エピック・エンジェルズがAIデータセンター向け冷却技術で、シードラウンド180万ドルの資金調達にエナキシオムを支援

Epic Angelsによると、Enaxiomは5月6日にEpic Angels、BlackNova、Antlerが支援する1,8百万USドルのシードラウンドをクローズし、累計調達額を2,7百万USドルに引き上げた。オーストラリアのディープテック企業は、非飲用水を使用するAIデータセンター向けの冷却システムであるHydroCoolを開発している。

GateNews10時間前

Cipher Digital、ビットコイン・マイナーがAIデータセンターへの転換を加速する中、第1四半期で1億1400万ドルの損失を計上

The Blockによると、Cipher Digitalは2026年Q1に1億1400万ドルの純損失を計上しており、AIインフラへの転換を加速するビットコイン・マイナーとして、2025年Q1の3900万ドルの損失を2倍以上上回りました。ビットコインのマイニング収益は、前年同期の4900万ドルから3500万ドルに減少しました。同社は署名したのは

GateNews17時間前
コメント
0/400
コメントなし