Laut BlockBeats erklärte Coinbase-CEO Brian Armstrong am 27. Juni, der Schlüssel zur Stabilisierung der KI-Kosten bei gleichzeitig exponentiellem Wachstum der Token-Nutzung sei nicht die Einschränkung der Nutzung, sondern die Verwendung besserer Standardmodelle und Caching-Mechanismen. Coinbase setzt standardmäßig auf Open-Weight-Modelle wie GLM 5.2 und Kimi 2.7 über sein LLM-Gateway, ermutigt jedoch weiterhin Ingenieure, für spezifische Aufgaben geeignete Modelle auszuwählen. Das Unternehmen stellte fest, dass 91 % der Mitarbeiter nie an Nutzungsgrenzen stoßen, weshalb es statt einer Senkung der Kontingente auf kostengünstigere Standardmodelle umstellte.
Coinbase hat cache-bewusste Anfrageverarbeitung und intelligentes Modell-Routing basierend auf Cache-Trefferquoten implementiert. Beispielsweise verbesserte sich nach Optimierung der Cache-Implementierung die Cache-Trefferquote von LibreChat von 5 % auf 60 %. Durch diese Maßnahmen hat Coinbase die KI-Ausgaben um fast die Hälfte reduziert, während die Token-Nutzung weiter wächst.