De acordo com Beating, Resemble AI lançou hoje o DramaBox, um modelo de geração de fala, na Hugging Face. O modelo traz uma controlabilidade ao nível de direcção através de uma sintaxe de prompts separada—os utilizadores inserem o diálogo entre aspas, enquanto especificam indicações de cena como suspirar, pausas ou sussurros fora das aspas. O modelo transforma essas indicações em discurso com inflexões emocionais, em vez de as ler em voz alta.
O DramaBox suporta clonagem de voz zero-shot com apenas 10 segundos de áudio de referência e permite prompts em linguagem natural para definir a idade, o sotaque e a emoção da personagem. O áudio gerado tem qualidade de estúdio em estéreo a 48 kHz. Todo o áudio gerado inclui uma marca de água invisível de Perth, resistente à compressão MP3 e à edição áudio padrão, para impedir o uso indevido para deepfakes.
Related News
A OpenAI adiciona a deteção de conversas em risco no ChatGPT, melhorando a capacidade de alertas para violência autoinfligida
A WhatsApp da Meta AI abre conversas sem rasto, com mensagens que desaparecem automaticamente, suscitando dúvidas e receios sobre um mecanismo de responsabilização
A Mistral AI está em negociações com bancos europeus para desenvolver o Mythos, um modelo alternativo de cibersegurança