Google triển khai Multi-Token Prediction trên Pixel 9 và 10, tăng tốc độ suy luận Gemini Nano hơn 50%

Theo Beating, Google đã triển khai kiến trúc Multi-Token Prediction (MTP) trên các thiết bị Pixel 9 và Pixel 10, giúp tăng tốc đáng kể mô hình Gemini Nano v3 chạy trên thiết bị. Kiến trúc mới giúp tăng tốc độ suy luận lên hơn 50% trong khi vẫn duy trì sự an toàn và chất lượng đầu ra của mô hình.

Cơ chế zero-copy cho phép đầu dự đoán tái sử dụng trực tiếp các đặc trưng đã lưu trong bộ nhớ đệm của mô hình chính thông qua cross-attention, loại bỏ chi phí bộ nhớ đệm khóa-giá trị riêng của các mô hình nháp truyền thống. Thiết kế này tiết kiệm khoảng 130MB bộ nhớ, đồng thời giảm độ trễ khởi động. Trong các ứng dụng thực tế như tóm tắt thông báo và trả lời thông minh, MTP đạt được tỷ lệ chấp nhận token tăng 55%, giảm tần suất đánh thức bộ xử lý và hạ mức tiêu thụ năng lượng hệ thống.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận