XAI Grok представив Custom Voices: 2-хвилинне клонування та двоетапну перевірку особи

xAI 2 травня представила у своєму офіційному блозі функцію Grok Custom Voices: користувачам достатньо записати в контрольній панелі xAI приблизно 1 хвилину природного голосу, система обробить це протягом 2 хвилин і створить кастомну голосову модель, яку можна використовувати для TTS та Voice Agent API. Паралельно вийшли модель Grok 4.3 і інтерфейс Voice Library, який агрегує всі голосові ресурси. Custom Voices також передбачає дворівневий механізм перевірки ідентичності, щоб запобігти клонуванню чужого голосу.

Функції: запис 1 хвилина, генерація 2 хвилини, інтеграція TTS та Voice Agent API

Користувач у контрольній панелі xAI записує приблизно 1 хвилину природного голосу, після чого у бекенді по черзі виконуються такі етапи: (1) перевірка ідентичності, (2) обробка голосу, (3) створення моделі. Загалом за 2 хвилини можна отримати готову для використання голосову модель. Custom Voices успадковує всі можливості TTS, зокрема speech tags (голосові теги), багатомовний вивід, а також REST і WebSocket-стрімінг; її можна напряму поєднувати з TTS-ендпойнтами xAI або Voice Agent API для миттєвих діалогів із агентом.

Паралельно представлено Voice Library — уніфікований інтерфейс керування голосовими ресурсами в контрольній панелі xAI: його можна переглядати, попередньо прослуховувати та адмініструвати всі голоси, створені користувачами, а також попередньо підготовлені, щоб уникнути розпорошення ресурсів по кількох інтерфейсах. Попередньо підготовлена бібліотека голосів містить понад 80 варіантів і підтримує 28 мов.

Дворівнева перевірка ідентичності: запобігання клонуванню чужого голосу

Перед генерацією голосу в Custom Voices налаштовано дві перевірки ідентичності: перша — користувач зачитує фразу для верифікації, а система миттєво транскрибує цей фрагмент; друга — система окремо розраховує speaker embedding (векторні характеристики мовця) для фрази верифікації та для повного запису, а потім порівнює, чи належать обидва до однієї й тієї самої людини. Лише після проходження обох етапів користувачеві відкривається процес створення голосової моделі.

xAI чітко заявляє: користувач не може клонувати голос, використовуючи наявні аудіозаписи, а також не може клонувати голос іншої людини. Цей підхід прибирає сценарій «отримати чужий публічний виступ і просто скопіювати його», обмежуючи клонування рамками одного входу — «користувач сам здійснює миттєвий запис». Для спостерігачів, які звертають увагу на проблему зловживань генерацією AI-голосів (наприклад, телефонне шахрайство або озвучування без дозволу), ця механіка є конкретною відповіддю xAI на питання протидії підробкам.

Подальші спостереження: запуск разом із Grok 4.3, розширення ритму у Voice Library

Custom Voices і модель Grok 4.3 вийшли в один день, і xAI прив’язує «оновлення моделі + повне розгортання голосових інструментів» до тієї ж хвилі релізів. Наступним пунктом для спостереження є темп розширення попередньо підготовленої бібліотеки голосів у Voice Library понад 80 варіантів, а також чи зможе карта 28 мов додатково охопити такі мови, як традиційна китайська; ще один пункт — чи стануть публічними конкретні кейси застосування Voice Agent API, зокрема приклади інтеграції для автоматизації клієнтської підтримки, запису podcast, багатомовного сервісу клієнтів тощо.

Ця стаття xAI Grok представила Custom Voices: клонування за 2 хвилини, дворівнева перевірка ідентичності вперше з’явилася на сайті 鏈新聞 ABMedia.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Фундація Solana та Google Cloud запускають платіжний шлюз Pay.sh AI, що підтримує понад 50 API-провайдерів

За даними Odaily, Solana Foundation і Google Cloud спільно запустили Pay.sh — AI-шлюз для платежів, який дає змогу AI-агентам викликати API-сервіси, використовуючи ончейн-стейблкоїни для кожного запиту окремо, без необхідності традиційних акаунтів. Побудований на протоколі x402 і підтримує Tempo та

GateNews2год тому

WorldClaw і WLFI запускають WorldRouter, пропонуючи доступ до 300+ моделей ШІ за 30% нижчої вартості

За даними Foresight News, операційна система AI-агентів WorldClaw уклала партнерство з криптопроєктом сім’ї Трампа WLFI, щоб запустити WorldRouter. Платформа дозволяє користувачам отримати доступ до понад 300 популярних AI-моделей через один обліковий запис, а комісії приблизно на 30% нижчі, ніж у відповідних моделей

GateNews3год тому

Epic Angels підтримує Enaxiom у раунді seed на $1,8 млн для технології охолодження дата-центрів для AI

Згідно з Epic Angels, Enaxiom закрила посівний раунд на $1,8 мільйона 6 травня за підтримки Epic Angels, BlackNova та Antler, довівши загальне фінансування компанії до $2,7 мільйона. Австралійський глибокотехнологічний стартап розробляє HydroCool — систему охолодження для центрів обробки даних для ШІ, яка використовує непитну воду та

GateNews5год тому

Cipher Digital публікує збитки в розмірі 114 мільйонів доларів за 1 квартал, оскільки біткоїн-майнер прискорює перехід до AI дата-центрів

За даними The Block, Cipher Digital опублікувала чистий збиток у розмірі 114 мільйонів доларів у I кварталі 2026 року, що більше ніж удвічі перевищує збиток у 39 мільйонів доларів за I квартал 2025 року, оскільки майнер біткоїнів прискорює перехід до AI-інфраструктури. Дохід від майнінгу біткоїнів знизився до 35 мільйонів доларів із 49 мільйонів доларів у річному порівнянні. Компанія підписала свій

GateNews12год тому

Oobit запускає AI-керовані USDT Visa-картки для бізнесу 5 травня

За даними Oobit, 5 травня платформа для платежів, підтримувана Tether, запустила віртуальні Visa-карти, які дають змогу агентам ШІ автономно проводити транзакції з використанням USDT. Карти дозволяють системам, керованим ШІ, виконувати рішення щодо витрат без прямого втручання людини, що стало вагомим кроком

GateNews12год тому

Yield.xyz і Privy запускають інфраструктуру AI Yield Agent для підтримки 80+ блокчейнів 5 травня

За даними BlockBeats, 5 травня платформа інфраструктури DeFi-прибутковості Yield.xyz і Privy, криптогаманець інфраструктурна компанія від Stripe, запустили інфраструктуру AI-yield-агента, яка підтримує автоматизоване виконання стратегій на понад 80 блокчейнах і понад 2 900 можливостях для DeFi-прибутковості. Рішення

GateNews13год тому
Прокоментувати
0/400
Немає коментарів