Theo theo dõi của 1M AI News, Viện Nghiên cứu của Google đã phát hành thuật toán nén lượng tử TurboQuant, có thể nén bộ đệm KV của mô hình ngôn ngữ lớn xuống còn 3 bit, giảm tiêu thụ bộ nhớ ít nhất 6 lần, không cần huấn luyện hoặc tinh chỉnh, không làm giảm độ chính xác của mô hình. Trong chế độ 4 bit, tốc độ tính toán chú ý trên GPU H100 của Nvidia cao hơn tối đa 8 lần so với cơ sở không lượng hóa 32 bit.
Nhóm nghiên cứu đã xác nhận hiệu quả của TurboQuant trên các chuẩn benchmark dài ngữ cảnh như LongBench, Needle In A Haystack, ZeroSCROLLS với các mô hình Gemma và Mistral, đạt hiệu suất tối ưu trong tất cả các thử nghiệm. Thuật toán này gồm hai phần: PolarQuant loại bỏ chi phí bộ nhớ của phương pháp lượng hóa truyền thống thông qua biến đổi cực tọa độ, QJL chỉ dùng 1 bit để hiệu chỉnh sai số còn lại.
Nghiên cứu do Amir Zandieh của Google Research và Phó Chủ tịch kiêm Google Fellow Vahab Mirrokni dẫn dắt, hợp tác cùng KAIST của Hàn Quốc và Đại học New York, dự kiến sẽ được công bố tại ICLR 2026. Google cho biết một trong những ứng dụng chính của công nghệ này là giải quyết nút thắt về bộ đệm KV của các mô hình như Gemini.