Xiaomi เปิดซอร์ส OmniVoice โมเดลโคลนเสียงแบบ Zero-Shot รองรับ 646 ภาษา

ตามการรายงานของ Beating ทีม Kaldi ของ AI Lab ของ Xiaomi ได้ปล่อยโอเพ่นซอร์ส OmniVoice ซึ่งเป็นโมเดล TTS โคลนเสียงแบบ zero-shot รองรับ 646 ภาษา โมเดลนี้โคลนลักษณะเสียงจากเพียงไม่กี่วินาทีของเสียงอ้างอิง และทำงานได้ข้ามภาษา—เสียงเดียวสามารถสังเคราะห์คำพูดได้ทั้งภาษาจีน ญี่ปุ่น เกาหลี และภาษาอื่นๆ ทั้งหมด ทั้งโค้ด น้ำหนัก และข้อมูลการฝึก ถูกเปิดซอร์สภายใต้ใบอนุญาต Apache-2.0

OmniVoice ใช้สถาปัตยกรรมที่เรียบง่ายด้วย Transformer แบบสองทิศทางเพียงตัวเดียว ซึ่งแมปข้อความไปยังโทเคนเสียงเชิงไม่ต่อเนื่องโดยตรง ทำให้การอนุมานเร็วกว่าเรียลไทม์ถึง 40 เท่าใน PyTorch โมเดลนี้ฝึกบนข้อมูลเสียง 580,000 ชั่วโมงจาก 50 ชุดข้อมูลโอเพ่นซอร์ส OmniVoice ทำผลงานได้ดีกว่าระบบเชิงพาณิชย์ในด้านความเหมือนของเสียงและความเข้าใจได้ใน 24 ภาษา ที่ทดสอบ และทำได้เท่าหรือเหนือกว่าการบันทึกของมนุษย์ใน 102 ภาษา

news.article.disclaimer

btc.bar.articles

Video Rebirth เปิดตัวเครื่องมือ BACH AI สำหรับการสร้างวิดีโอแบบหลายช็อต สูงสุด 30 วินาที

Video Rebirth เปิดตัว BACH เมื่อวันที่ 7 พฤษภาคม เป็นเครื่องมือที่สร้างวิดีโอแบบหลายช็อตได้นานสูงสุด 30 วินาทีจากพรอมต์ข้อความและภาพอ้างอิง เครื่องมือนี้รักษาความสอดคล้องของตัวละครในทุกช็อต ปฏิบัติตามคำแนะนำด้านกล้อง และสร้างวิดีโอความละเอียด 1080p แบบพื้นเมืองพร้อมเอฟเฟกต์เสียง เสียงบรรยาย และ

GateNews2 ชั่วโมง ที่แล้ว

Tether เปิดตัวโมเดล AI ทางการแพทย์ QVAC MedPsy และทำคะแนนได้ 62.62 จากเวอร์ชันที่มีพารามิเตอร์ 17 พันล้านพารามิเตอร์

ตามรายงานของ Odaily กลุ่มวิจัย Tether AI ปล่อยตัว QVAC MedPsy ซึ่งเป็นโมเดล AI ทางการแพทย์ที่ออกแบบให้ทำงานแบบออฟไลน์บนสมาร์ทโฟนและอุปกรณ์สวมใส่โดยไม่ต้องพึ่งพาระบบคลาวด์ เวอร์ชัน 1.7 พันล้านพารามิเตอร์ทำคะแนนได้ 62.62 จากเกณฑ์การประเมินทางการแพทย์ 7 รายการ โดยทำได้ดีกว่า MedGemma-1.5-4B ของ Google อยู่ 11.42 poi

GateNews3 ชั่วโมง ที่แล้ว

TCV นำร่อง $160M รอบ Series B สำหรับสตาร์ทอัพประกันภัย Corgi

Corgi สตาร์ทอัพประกันธุรกิจจากสหรัฐฯ ประกาศเมื่อวันที่ 6 พฤษภาคมว่าได้ระดมทุนรอบ Series B มูลค่า 160 ล้านดอลลาร์ โดยมี TCV เป็นผู้นำที่การประเมินมูลค่า 1.3 พันล้านดอลลาร์ ตามรายงานของ TechCrunch รอบนี้ยังมี Kindred Ventures, Leblon Capital และ First Order Fund เข้าร่วมด้วย การระดมทุนทั้งหมดของ Corgi ตอนนี้อยู่ที่ 268

CryptoFrontier11 ชั่วโมง ที่แล้ว

B.AI ทะลุผู้ใช้งาน 1.7 ล้านคนในวันที่ 7 พฤษภาคม เปิดตัวโปรแกรมรางวัล

ตาม B.AI แพลตฟอร์มโครงสร้างพื้นฐานด้าน AI มีผู้ใช้งานทะลุ 1.7 ล้านรายเมื่อวันที่ 7 พฤษภาคม แพลตฟอร์มดังกล่าวซึ่งเน้นการปกป้องความเป็นส่วนตัวและโครงสร้างพื้นฐานของเศรษฐกิจเอเจน กำลังมอบเครดิตฟรี 500,000 ให้แก่ผู้ใช้งานใหม่เมื่อสมัครใช้งาน ฟรีค่าบริการเพิ่ม (zero markup) ในทุกรุ่น และข้อเสนอแบบจำกัดเวลาอัตรา 1:1

GateNews11 ชั่วโมง ที่แล้ว

Osome ลดบทบาทมากกว่า 70 ตำแหน่ง เพิ่ม EBITDA 50% ด้วยการเปลี่ยนไปใช้ AI

ตามรายงานของ Tech in Asia แพลตฟอร์มบริหารจัดการองค์กร Osome ซึ่งมีสำนักงานในสิงคโปร์ ได้ลดตำแหน่งงานไปแล้วมากกว่า 70 ตำแหน่งในช่วง 2 ปีที่ผ่านมา ขณะเดียวกันได้นำ AI มาใช้เพื่อจัดการงานด้านการปฏิบัติตามกฎระเบียบ เช่น การบันทึกธุรกรรมและการประมวลผลใบแจ้งหนี้ ซีอีโอ Eugenio Ferrante กล่าวว่า บริษัทได้แลกกับการเติบโตของรายได้ที่ช้าลง i

GateNews15 ชั่วโมง ที่แล้ว

Schneider Electric เตรียมเปิดศูนย์ฝึกอบรมด้านการพัฒนาในเอเชียตะวันออกเฉียงใต้ในมาเลเซียภายในปีนี้ โดยเครื่องมือ AI ช่วยลดการใช้พลังงาน 2%-3%

ตามรายงานของ Reuters บริษัท Schneider Electric วางแผนจะเปิดศูนย์ฝึกอบรมในเอเชียตะวันออกเฉียงใต้ที่ประเทศมาเลเซียในปีนี้ เพื่อรับมือกับความต้องการไฟฟ้าที่เพิ่มขึ้นจากการขยายโครงสร้างพื้นฐานด้าน AI ในภูมิภาค ศูนย์ดังกล่าวจะฝึกอบรมทั้งพาร์ทเนอร์และลูกค้าเกี่ยวกับระบบบริหารจัดการพลังงานและอุปกรณ์ศูนย์ข้อมูล Schneider'

GateNews15 ชั่วโมง ที่แล้ว
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น