Theo Citrini Research, vào ngày 16/6, AMD và Apple đang đồng thời thúc đẩy các giải pháp thay thế DRAM dựa trên bộ nhớ flash trong các sản phẩm AI. AMD mua lại MEXT để tối ưu hiệu năng lưu trữ flash tiệm cận mức DRAM, giảm chi phí bộ nhớ trung tâm dữ liệu; Apple triển khai công nghệ “LLM in a flash” để đạt mức tối ưu tương tự ở lớp biên trên thiết bị.
Nghiên cứu mới nhất của Citrini cho thấy nhu cầu KV cache trong suy luận AI và HBM, vốn tiêu tốn 25% công suất sản xuất DRAM, đang tạo ra áp lực chi phí bộ nhớ đáng kể. Chi phí lưu trữ flash chỉ bằng 1/55 so với DRAM, và thông qua tối ưu hóa bộ điều khiển, xếp chồng NAND và điều chỉnh chế độ ô, nó mang lại các lựa chọn khả thi về dung lượng và băng thông cho AI ở biên.