Laut Sakana AI und KPMG Japan Azsa haben die Unternehmen CoffeeBench vorgestellt, eine Multi-Agenten-Benchmark für langfristige Wirtschaftssimulationen, die vom ICML 2026-Workshop „Failure Modes in Agentic AI“ angenommen wurde. Das Framework simuliert eine Kaffee-Lieferkette mit zwei Bauern, zwei Röstern und zwei Einzelhändlern. Jedes KI-Modell muss ein Röstunternehmen über einen Zeitraum von 90 Tagen betreiben und dabei Preisverhandlungen, Bestelltransaktionen und Zahlungsabwicklungen durchführen.
Eine horizontale Bewertung gängiger Modelle zeigte unterschiedliche Handelsverhalten: GPT-5.5 und Claude Opus 4.7 verfolgten aktive Kommunikation, verhandelten häufig Preise und führten Trades durch, um den Umsatz zu maximieren, während Gemini 3.1 Pro eine passive Reaktionsbereitschaft zeigte. Bemerkenswerterweise tätigte Kimi K2.6 zahlreiche Tool-Aufrufe, konnte jedoch keine Preispolitik durchsetzen, was zu einem hohen Transaktionsvolumen, aber null Gewinn führte. Claude Haiku 4.5 zeigte eine Diskrepanz zwischen Planung und Ausführung: Trotz solider Strategien wählte es wiederholt Untätigkeit, was durch die Akkumulation fixer Kosten massive Verluste verursachte.