Google TurboQuant: Lượng tử hóa KV Cache 3bit không mất độ chính xác, suy luận nhanh hơn tối đa 8 lần

BlockBeatNews

2026-03-25 02:36:09

Theo theo dõi của 1M AI News, Viện Nghiên cứu của Google đã phát hành thuật toán nén lượng tử TurboQuant, có thể nén bộ đệm KV của mô hình ngôn ngữ lớn xuống còn 3 bit, giảm tiêu thụ bộ nhớ ít nhất 6 lần, không cần huấn luyện hoặc tinh chỉnh, không làm giảm độ chính xác của mô hình. Trong chế độ 4 bit, tốc độ tính toán chú ý trên GPU H100 của Nvidia cao hơn tối đa 8 lần so với cơ sở không lượng hóa 32 bit.

Nhóm nghiên cứu đã xác nhận hiệu quả của TurboQuant trên các chuẩn benchmark dài ngữ cảnh như LongBench, Needle In A Haystack, ZeroSCROLLS với các mô hình Gemma và Mistral, đạt hiệu suất tối ưu trong tất cả các thử nghiệm. Thuật toán này gồm hai phần: PolarQuant loại bỏ chi phí bộ nhớ của phương pháp lượng hóa truyền thống thông qua biến đổi cực tọa độ, QJL chỉ dùng 1 bit để hiệu chỉnh sai số còn lại.

Nghiên cứu do Amir Zandieh của Google Research và Phó Chủ tịch kiêm Google Fellow Vahab Mirrokni dẫn dắt, hợp tác cùng KAIST của Hàn Quốc và Đại học New York, dự kiến sẽ được công bố tại ICLR 2026. Google cho biết một trong những ứng dụng chính của công nghệ này là giải quyết nút thắt về bộ đệm KV của các mô hình như Gemini.

Xem bản gốc

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bình luận

0/400

Không có bình luận