XAI Grok представив Custom Voices: 2-хвилинне клонування та двоетапну перевірку особи

2026-05-03 01:35:06

xAI 2 травня представила у своєму офіційному блозі функцію Grok Custom Voices: користувачам достатньо записати в контрольній панелі xAI приблизно 1 хвилину природного голосу, система обробить це протягом 2 хвилин і створить кастомну голосову модель, яку можна використовувати для TTS та Voice Agent API. Паралельно вийшли модель Grok 4.3 і інтерфейс Voice Library, який агрегує всі голосові ресурси. Custom Voices також передбачає дворівневий механізм перевірки ідентичності, щоб запобігти клонуванню чужого голосу.

Функції: запис 1 хвилина, генерація 2 хвилини, інтеграція TTS та Voice Agent API

Користувач у контрольній панелі xAI записує приблизно 1 хвилину природного голосу, після чого у бекенді по черзі виконуються такі етапи: (1) перевірка ідентичності, (2) обробка голосу, (3) створення моделі. Загалом за 2 хвилини можна отримати готову для використання голосову модель. Custom Voices успадковує всі можливості TTS, зокрема speech tags (голосові теги), багатомовний вивід, а також REST і WebSocket-стрімінг; її можна напряму поєднувати з TTS-ендпойнтами xAI або Voice Agent API для миттєвих діалогів із агентом.

Паралельно представлено Voice Library — уніфікований інтерфейс керування голосовими ресурсами в контрольній панелі xAI: його можна переглядати, попередньо прослуховувати та адмініструвати всі голоси, створені користувачами, а також попередньо підготовлені, щоб уникнути розпорошення ресурсів по кількох інтерфейсах. Попередньо підготовлена бібліотека голосів містить понад 80 варіантів і підтримує 28 мов.

Дворівнева перевірка ідентичності: запобігання клонуванню чужого голосу

Перед генерацією голосу в Custom Voices налаштовано дві перевірки ідентичності: перша — користувач зачитує фразу для верифікації, а система миттєво транскрибує цей фрагмент; друга — система окремо розраховує speaker embedding (векторні характеристики мовця) для фрази верифікації та для повного запису, а потім порівнює, чи належать обидва до однієї й тієї самої людини. Лише після проходження обох етапів користувачеві відкривається процес створення голосової моделі.

xAI чітко заявляє: користувач не може клонувати голос, використовуючи наявні аудіозаписи, а також не може клонувати голос іншої людини. Цей підхід прибирає сценарій «отримати чужий публічний виступ і просто скопіювати його», обмежуючи клонування рамками одного входу — «користувач сам здійснює миттєвий запис». Для спостерігачів, які звертають увагу на проблему зловживань генерацією AI-голосів (наприклад, телефонне шахрайство або озвучування без дозволу), ця механіка є конкретною відповіддю xAI на питання протидії підробкам.

Подальші спостереження: запуск разом із Grok 4.3, розширення ритму у Voice Library

Custom Voices і модель Grok 4.3 вийшли в один день, і xAI прив’язує «оновлення моделі + повне розгортання голосових інструментів» до тієї ж хвилі релізів. Наступним пунктом для спостереження є темп розширення попередньо підготовленої бібліотеки голосів у Voice Library понад 80 варіантів, а також чи зможе карта 28 мов додатково охопити такі мови, як традиційна китайська; ще один пункт — чи стануть публічними конкретні кейси застосування Voice Agent API, зокрема приклади інтеграції для автоматизації клієнтської підтримки, запису podcast, багатомовного сервісу клієнтів тощо.

Ця стаття xAI Grok представила Custom Voices: клонування за 2 хвилини, дворівнева перевірка ідентичності вперше з’явилася на сайті 鏈新聞 ABMedia.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

05-02 06:41

xAI запускає Grok із користувацькими голосами та дає змогу за одну хвилину клонувати власний AI-голос

05-02 04:53

OpenAI запускає Codex Pets — AI-компаньйон у віртуальному світі з можливістю кастомної генерації

05-02 00:33

xAI запускає API для клонування голосу, який підтримує понад 80 голосів у 28 мовах

Пов'язані статті

Настільна версія OpenAI Codex отримала функцію для домашніх улюбленців: 3 статусні підказки, інкубація залежно від мови використання

ChainNewsAbmedia05-03 00:05

Позов Муска проти Альтмана: свідчення за перший тиждень — він визнав, що XAI «дистилює» OpenAI, і попередив, що ШІ діятиме як «Термінатор»

ChainNewsAbmedia05-02 13:16

Розбір Berkeley GEPA: без оновлення ваг AI може навчитися новим завданням, знизивши витрати на тренування в 35 разів проти RL

ChainNewsAbmedia05-02 05:48

OpenAI опублікувала дані за перший тиждень роботи GPT-5.5: темпи зростання доходів від API досягли рекорду, Codex виріс удвічі

ChainNewsAbmedia05-02 05:44

Оцінка AISI: можливості GPT-5.5 щодо мережевих атак на рівні з Anthropic Mythos

ChainNewsAbmedia05-02 03:16

Прокоментувати

0/400

Немає коментарів