Theo Beating, Resemble AI đã phát hành DramaBox, một mô hình tạo lời thoại, trên Hugging Face vào hôm nay. Mô hình có khả năng kiểm soát cấp độ đạo diễn thông qua cú pháp prompt tách riêng—người dùng nhập thoại trong dấu ngoặc kép, đồng thời chỉ định các chỉ dẫn sân khấu như thở dài, ngắt quãng hoặc thì thầm nằm ngoài dấu ngoặc kép. Mô hình chuyển các chỉ dẫn này thành lời thoại có sắc thái cảm xúc thay vì đọc chúng thành tiếng.
DramaBox hỗ trợ tạo giọng nói theo yêu cầu từ đầu (zero-shot voice cloning) chỉ với 10 giây dữ liệu âm thanh tham chiếu và cho phép dùng prompt bằng ngôn ngữ tự nhiên để thiết lập tuổi nhân vật, giọng địa phương và cảm xúc. Âm thanh đầu ra đạt chất lượng studio stereo 48kHz. Tất cả âm thanh được tạo đều có watermark Perth vô hình, chống chịu tốt với nén MP3 và các thao tác chỉnh sửa âm thanh tiêu chuẩn nhằm ngăn lạm dụng deepfake.
Related News
OpenAI bổ sung tính năng phát hiện hội thoại khủng hoảng trên ChatGPT, nâng cao khả năng cảnh báo bạo lực tự hủy
WhatsApp ra mắt cuộc trò chuyện không dấu với Meta AI, tin nhắn tự động biến mất dấy lên lo ngại về cơ chế trách nhiệm và giải trình
Mistral AI đàm phán với ngân hàng châu Âu để phát triển mô hình thay thế an ninh mạng Mythos