Sakana AI y KPMG presentan CoffeeBench, una simulación de trading de agentes de IA de 90 días; GPT-5.5 y Claude muestran estrategias contrastantes

Según Sakana AI y KPMG Japan Azsa, las empresas presentaron CoffeeBench, un benchmark económico multiagente de largo horizonte aceptado por el taller de Modos de Falla en IA Agencial de ICML 2026. El marco simula una cadena de suministro de café con dos agricultores, dos tostadores y dos minoristas, requiriendo que cada modelo de IA opere un negocio de tostado durante un período de 90 días mediante negociaciones de precios, transacciones de pedidos y liquidaciones de pagos.

La evaluación horizontal de los modelos principales reveló comportamientos comerciales distintos: GPT-5.5 y Claude Opus 4.7 buscaban comunicación activa, negociando precios con frecuencia y ejecutando transacciones para maximizar ventas, mientras que Gemini 3.1 Pro mostraba una capacidad de respuesta pasiva. Notablemente, Kimi K2.6 realizó numerosas llamadas a herramientas, pero no logró imponer disciplina de precios, lo que resultó en un alto volumen de transacciones pero cero ganancias. Claude Haiku 4.5 mostró una desalineación entre planificación y ejecución, eligiendo repetidamente la inacción a pesar de formular estrategias sólidas, incurriendo finalmente en pérdidas masivas a medida que se acumulaban los costos fijos.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios