根據 Abacus.AI 執行長 Bindu Reddy 的說法,Google 計劃在 5 月 20 日的 I/O 大會上揭曉 Gemini 3.2 Flash,其效能可在程式編寫與推理任務上達到 GPT-5.5 的 92%,並將推論成本大幅削減至僅為後者的五分之一到十五分之一。多數查詢的延遲將低於 200 毫秒。Reddy 將這項突破歸因於 Google 的蒸餾與稀疏技術:它們能在不出現模型最佳化時典型的效能斷崖的情況下,把前沿模型壓縮到 Flash 等級。