Theo Beating, Thinking Machines, phòng thí nghiệm được thành lập bởi cựu CTO OpenAI Mira Murati, đã phát hành bản xem trước nghiên cứu cho mô hình Interaction của mình, với khả năng xử lý âm thanh và video thời gian thực tích hợp, cùng các phản hồi micro-turn chỉ trong 200 mili giây. Mô hình cho phép nghe, xem và nói đồng thời, đồng thời hỗ trợ người dùng ngắt quãng theo thời gian thực.
Mô hình TML-Interaction-Small sử dụng kiến trúc MoE gồm 276 tỷ tham số, với 12 tỷ tham số được kích hoạt cho mỗi lần suy luận. Dữ liệu chính thức cho thấy độ trễ bắt đầu lượt nói là 0,40 giây và điểm FD-bench V1.5 đạt 77,8, cả hai đều vượt qua GPT-Realtime-2.0 và Gemini 3.1 Flash Live. Quyền truy cập xem trước hạn chế dự kiến sẽ được mở trong vài tháng tới.
Related News
OpenAI cũng đi theo kiểu cố vấn như Palantir? Bỏ 4 tỷ thành lập công ty độc lập, cử FDE vào doanh nghiệp để tích hợp sâu quy trình AI
OpenAI ra mắt công ty triển khai 4 tỷ USD: nhận Tomoro
Nhân viên OpenAI bán cổ phần trị giá 6,6 tỷ USD, lợi nhuận trung bình mỗi người là 11 triệu USD