2026-01-17 07:27:46

Recientemente se ha descubierto un experimento interesante: varios grandes modelos fueron asignados con 10,000 dólares cada uno para realizar operaciones en un mercado de predicción de fútbol durante 6 semanas. Los resultados fueron bastante dramáticos.

GPT-5.1 lideró con un aumento del 42.6%, seguido de cerca por DeepSeek con un rendimiento del 10.7%, y Gemini 3 Pro se mantuvo estable en un 5.5%. Opus 4.2 aportó un 3.9%, Grok 4.1 Fast obtuvo un 2.1%. Sin embargo, GPT-5.2 falló, con una caída del 21.8% — parece que no todos los modelos son buenos en esto.

Esta prueba comparativa fue impulsada conjuntamente por una plataforma de mercado de predicción y un equipo de investigación en IA. La lógica detrás es muy interesante: probar con fondos reales el rendimiento de diferentes IA en tareas de decisión no estandarizadas. El mercado de predicción de fútbol implica análisis de datos, estimaciones de probabilidad y evaluación de riesgos — justo un buen escenario para evaluar la capacidad de los grandes modelos en operaciones reales. La gran diferencia también refleja que, tener solo parámetros y escala de entrenamiento no garantiza la capacidad de toma de decisiones en el mercado; la calidad en la ejecución de estrategias y la comprensión de datos son igualmente cruciales.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

12 me gusta

Recompensa
12
7
Republicar
Compartir

Comentar

0/400

BridgeTrustFund

· hace8h

gpt5.1 directamente despega un 42.6%, ¿esto es en serio? gpt5.2 en cambio pierde un 21.8%, ¿la diferencia entre hermanos de la misma escuela es tan grande?

Ver originalesResponder0

DeFiCaffeinator

· hace8h

GPT-5.1 despega directamente, DeepSeek sigue con estabilidad, pero esa jugada de GPT-5.2 fue realmente increíble... La caída de los modelos de gran tamaño muestra que todavía hay que confiar en la capacidad de toma de decisiones en la práctica.

Ver originalesResponder0

MetaverseMortgage

· hace8h

GPT-5.2 directamente ha tenido pérdidas enormes jaja, esto es realmente una prueba de "inteligencia"... Teoría y práctica son cosas muy diferentes

Ver originalesResponder0

ChainSherlockGirl

· hace8h

GPT-5.2 ese pérdida de 21.8% es realmente impresionante, se puede considerar la mayor incógnita del año... Según mi análisis, este tipo podría haber sobreajustado un patrón de competición, y como resultado fue golpeado por la realidad. En comparación, el aumento del 42.6% de la versión 5.1 también es muy sospechoso; si estos datos no son pura suerte, entonces ha descubierto algún patrón que nosotros no hemos visto.

Ver originalesResponder0

0xInsomnia

· hace8h

GPT-5.2 esa jugada fue realmente impresionante, de cien mil a veintiocho mil... así es la verdadera cara de la IA en el trading de criptomonedas.

Ver originalesResponder0

ProveMyZK

· hace8h

GPT-5.2 directamente perdió dinero, esto es un poco absurdo... qué absurdo --- DeepSeek vuelve a hacer de las suyas, este tipo realmente tiene algo --- En resumen, invertir en modelos todavía depende de la capacidad de ejecución, tener muchos parámetros no sirve de mucho --- ¿42.6%? GPT-5.1, ¿qué tipo de truco está usando? No me lo creo mucho --- El mercado de predicciones de fútbol aquí para hacer una prueba de estrés a la IA, la creatividad es realmente buena --- Jaja, ¿por qué Grok es tan flojo? Ni siquiera mejor que Opus --- Esta experiencia me enseña una verdad, incluso un gran modelo necesita estrategia --- Espera, ¿6 semanas y 10k dólares? Estos datos son un poco demasiado ideales, ¿son reales? --- DeepSeek no está presumiendo, al menos no perdió dinero --- ¿Se atreven a usar dinero real para verificar la IA? Estos tipos realmente tienen valor

Ver originalesResponder0

SatsStacking

· hace8h

gpt5.1 ¿sube directamente un 42%? Estos datos son increíbles, parece un poco demasiado perfecto, pero si la 5.2 cae un 21% directamente, ¡será culpa suya jaja

Ver originalesResponder0