Компанія Beating, Resemble AI сьогодні випустила DramaBox — модель генерації мовлення — на Hugging Face. Модель забезпечує керованість на рівні режисера завдяки розділеному синтаксису підказок: користувачі вводять діалоги в лапках, а сценічні ремарки на кшталт зітхань, пауз або шепоту — поза лапками. Модель передає ці ремарки як емоційно забарвлену мову, а не зачитує їх уголос.
DramaBox підтримує zero-shot клонування голосу лише за 10 секунд еталонного аудіо та дає змогу природними мовними підказками задавати вік персонажа, акцент і емоцію. Вихідне аудіо — 48 кГц стерео студійної якості. Увесь згенерований контент має невидимий водяний знак Perth, стійкий до стиснення MP3, а також стандартні інструменти редагування аудіо, щоб запобігти неправильному використанню deepfake.
Related News
OpenAI додала виявлення кризових діалогів у ChatGPT, щоб посилити здатність до виявлення попереджень про самопошкодження та насильство
WhatsApp разом із Meta AI запускає приховані чати: автоматичне зникнення повідомлень викликає сумніви щодо механізму відповідальності
Mistral AI веде переговори з європейськими банками щодо розробки Mythos як заміни мережевої моделі кібербезпеки