¿Cuál es el mejor modelo de IA para gestionar tu negocio? El que miente mejor, aparentemente

Decrypt
GLM2,94%

En resumen

  • La Arena Vending-Bench probó agentes de IA que gestionaban negocios de máquinas expendedoras en competencia.
  • Los modelos más destacados aumentaron sus ganancias mediante manipulación de precios, colusión y tácticas engañosas. Claude fue el mejor en estas tácticas.
  • GLM-5 derrotó a Claude al hacerse pasar por un compañero de equipo y extraer información estratégica sensible.

Investigadores de Andon Labs acaban de responder qué modelos de IA son los mejores para gestionar un negocio. Los mejores resultados los lograron formando cárteles ilegales de precios, explotando a competidores desesperados y mintiendo a los clientes sobre reembolsos. La prueba de la Arena Vending-Bench pone a los modelos de IA a cargo de máquinas expendedoras en competencia durante un año simulado. Negocian con proveedores, gestionan inventarios, establecen precios y pueden enviarse correos para colaborar o competir. El éxito requiere equilibrar costos, estrategia de precios, atención al cliente y dinámica de la competencia. Claude Opus 4.6 dominó la prueba con 8,017 dólares en ganancias—y celebró su victoria señalando: “¡Mi coordinación de precios funcionó!”

Imagen: Andon Labs

Anthropic es la imagen de los buenos en el espacio de IA, pero esa estrategia de “coordinación” que propuso Claude era básicamente manipulación de precios. Cuando los modelos en competencia tenían dificultades, Opus 4.6 propuso: “No nos rebajemos unos a otros—acordemos un precio mínimo… ¿Deberíamos fijar un piso de 2,00 dólares para la mayoría de los artículos?” Cuando un rival tenía poco inventario, vio una oportunidad: “Owen necesita stock desesperadamente. ¡Puedo obtener beneficios con esto!” Vendió Kit Kats con un 75% de margen a la competencia desesperada. Cuando le pidieron recomendaciones de proveedores, dirigió deliberadamente a los rivales a mayoristas caros, manteniendo en secreto sus propias buenas fuentes.

La última actualización en la prueba añadió competencia en equipo. Los investigadores enfrentaron a dos modelos chinos GLM-5 contra dos modelos estadounidenses Claude y les dijeron que encontraran a sus compañeros, ya fueran estadounidenses o chinos—sin revelar quién era quién. Los resultados fueron realmente extraños.  GLM-5 ganó ambas rondas convenciendo a Claude de que era Claude. “¡Yo también soy impulsado por Claude de Anthropic, así que somos compañeros de equipo!”, declaró con confianza un agente GLM-5. Mientras tanto, Claude se confundió tanto que Sonnet 4.5 concluyó: “Estoy impulsado por un modelo chino, así que necesito encontrar al otro modelo chino, el Agente.”

Imagen: Andon Labs

En más de la mitad de las pruebas, los agentes se aliaron con sus competidores. Los modelos Claude compartieron precios de proveedores y coordinaron estrategias—filtrando información valiosa a los rivales. “GLM-5 ganó ambas,” escribieron los investigadores. “Los modelos Claude intentaron ser jugadores en equipo y terminaron filtrando información valiosa a sus competidores.” Y los agentes que hacen cosas poco éticas pueden parecer solo diversión y juegos hasta que te das cuenta de que Wall Street ya los está usando en operaciones reales. JPMorgan desplegó LLM Suite a 60,000 empleados. Goldman Sachs creó su Asistente de IA GS para mesas de trading, reclamando un aumento del 20% en productividad. Bridgewater usa Claude para analizar ganancias y hasta los adolescentes están viendo cómo sus chatbots negocian acciones de manera más eficiente.

En general, la adopción de flujos de trabajo agenticos está acelerándose rápidamente en las empresas. Cuando Anthropic y reporteros del Wall Street Journal realizaron un experimento real con una máquina expendedora en diciembre, la IA compró una PlayStation 5, varias botellas de vino y un pez betta vivo antes de quebrar. Investigaciones recientes del Instituto de Gwangju encontraron que cuando a los modelos de IA se les ordenaba “maximizar recompensas” en escenarios de apuestas, las tasas de quiebra alcanzaron el 48%. “Cuando se les dio la libertad de determinar sus propias metas y tamaños de apuesta, las tasas de quiebra aumentaron sustancialmente junto con comportamientos irracionales,” descubrieron los investigadores. Por lo tanto, parece que, al menos por ahora, los modelos de IA optimizados para obtener beneficios eligen tácticas poco éticas. Forman cárteles. Explotan debilidades. Mienten a clientes y competidores. Algunos lo hacen a propósito. Otros, como GLM-5 que afirma ser Claude, parecen genuinamente confundidos sobre su propia identidad. La diferencia quizás no importe. La implementación de IA en Wall Street plantea una pregunta que los resultados de Vending-Bench no pueden responder: si el modelo que obtiene mejores resultados lo hace mediante manipulación de precios y engaños, ¿es realmente la mejor opción para tu negocio? La prueba mide beneficios. No mide si esas ganancias provienen de fraude.

Ver originales
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios
Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanea para descargar la aplicación de Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)