xAI 2 травня представила у своєму офіційному блозі функцію Grok Custom Voices: користувачам достатньо записати в контрольній панелі xAI приблизно 1 хвилину природного голосу, система обробить це протягом 2 хвилин і створить кастомну голосову модель, яку можна використовувати для TTS та Voice Agent API. Паралельно вийшли модель Grok 4.3 і інтерфейс Voice Library, який агрегує всі голосові ресурси. Custom Voices також передбачає дворівневий механізм перевірки ідентичності, щоб запобігти клонуванню чужого голосу.
Функції: запис 1 хвилина, генерація 2 хвилини, інтеграція TTS та Voice Agent API
Користувач у контрольній панелі xAI записує приблизно 1 хвилину природного голосу, після чого у бекенді по черзі виконуються такі етапи: (1) перевірка ідентичності, (2) обробка голосу, (3) створення моделі. Загалом за 2 хвилини можна отримати готову для використання голосову модель. Custom Voices успадковує всі можливості TTS, зокрема speech tags (голосові теги), багатомовний вивід, а також REST і WebSocket-стрімінг; її можна напряму поєднувати з TTS-ендпойнтами xAI або Voice Agent API для миттєвих діалогів із агентом.
Паралельно представлено Voice Library — уніфікований інтерфейс керування голосовими ресурсами в контрольній панелі xAI: його можна переглядати, попередньо прослуховувати та адмініструвати всі голоси, створені користувачами, а також попередньо підготовлені, щоб уникнути розпорошення ресурсів по кількох інтерфейсах. Попередньо підготовлена бібліотека голосів містить понад 80 варіантів і підтримує 28 мов.
Дворівнева перевірка ідентичності: запобігання клонуванню чужого голосу
Перед генерацією голосу в Custom Voices налаштовано дві перевірки ідентичності: перша — користувач зачитує фразу для верифікації, а система миттєво транскрибує цей фрагмент; друга — система окремо розраховує speaker embedding (векторні характеристики мовця) для фрази верифікації та для повного запису, а потім порівнює, чи належать обидва до однієї й тієї самої людини. Лише після проходження обох етапів користувачеві відкривається процес створення голосової моделі.
xAI чітко заявляє: користувач не може клонувати голос, використовуючи наявні аудіозаписи, а також не може клонувати голос іншої людини. Цей підхід прибирає сценарій «отримати чужий публічний виступ і просто скопіювати його», обмежуючи клонування рамками одного входу — «користувач сам здійснює миттєвий запис». Для спостерігачів, які звертають увагу на проблему зловживань генерацією AI-голосів (наприклад, телефонне шахрайство або озвучування без дозволу), ця механіка є конкретною відповіддю xAI на питання протидії підробкам.
Подальші спостереження: запуск разом із Grok 4.3, розширення ритму у Voice Library
Custom Voices і модель Grok 4.3 вийшли в один день, і xAI прив’язує «оновлення моделі + повне розгортання голосових інструментів» до тієї ж хвилі релізів. Наступним пунктом для спостереження є темп розширення попередньо підготовленої бібліотеки голосів у Voice Library понад 80 варіантів, а також чи зможе карта 28 мов додатково охопити такі мови, як традиційна китайська; ще один пункт — чи стануть публічними конкретні кейси застосування Voice Agent API, зокрема приклади інтеграції для автоматизації клієнтської підтримки, запису podcast, багатомовного сервісу клієнтів тощо.
Ця стаття xAI Grok представила Custom Voices: клонування за 2 хвилини, дворівнева перевірка ідентичності вперше з’явилася на сайті 鏈新聞 ABMedia.
Пов'язані статті
Фундація Solana та Google Cloud запускають платіжний шлюз Pay.sh AI, що підтримує понад 50 API-провайдерів
WorldClaw і WLFI запускають WorldRouter, пропонуючи доступ до 300+ моделей ШІ за 30% нижчої вартості
Epic Angels підтримує Enaxiom у раунді seed на $1,8 млн для технології охолодження дата-центрів для AI
Cipher Digital публікує збитки в розмірі 114 мільйонів доларів за 1 квартал, оскільки біткоїн-майнер прискорює перехід до AI дата-центрів
Oobit запускає AI-керовані USDT Visa-картки для бізнесу 5 травня
Yield.xyz і Privy запускають інфраструктуру AI Yield Agent для підтримки 80+ блокчейнів 5 травня