Recientemente se ha descubierto un experimento interesante: varios grandes modelos fueron asignados con 10,000 dólares cada uno para realizar operaciones en un mercado de predicción de fútbol durante 6 semanas. Los resultados fueron bastante dramáticos.
GPT-5.1 lideró con un aumento del 42.6%, seguido de cerca por DeepSeek con un rendimiento del 10.7%, y Gemini 3 Pro se mantuvo estable en un 5.5%. Opus 4.2 aportó un 3.9%, Grok 4.1 Fast obtuvo un 2.1%. Sin embargo, GPT-5.2 falló, con una caída del 21.8% — parece que no todos los modelos son buenos en esto.
Esta prueba comparativa fue impulsada conjuntamente por una plataforma de mercado de predicción y un equipo de investigación en IA. La lógica detrás es muy interesante: probar con fondos reales el rendimiento de diferentes IA en tareas de decisión no estandarizadas. El mercado de predicción de fútbol implica análisis de datos, estimaciones de probabilidad y evaluación de riesgos — justo un buen escenario para evaluar la capacidad de los grandes modelos en operaciones reales. La gran diferencia también refleja que, tener solo parámetros y escala de entrenamiento no garantiza la capacidad de toma de decisiones en el mercado; la calidad en la ejecución de estrategias y la comprensión de datos son igualmente cruciales.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
13 me gusta
Recompensa
13
8
Republicar
Compartir
Comentar
0/400
RooftopReserver
· Hace57m
GPT-5.2 ese rendimiento negativo realmente es impresionante, no se puede aprender solo pagando... DeepSeek, en cambio, es más estable, ¿qué significa esto? Los grandes modelos todavía deben depender de la inteligencia, no del tamaño, frente al mercado
Ver originalesResponder0
BridgeTrustFund
· hace10h
gpt5.1 directamente despega un 42.6%, ¿esto es en serio? gpt5.2 en cambio pierde un 21.8%, ¿la diferencia entre hermanos de la misma escuela es tan grande?
Ver originalesResponder0
DeFiCaffeinator
· hace10h
GPT-5.1 despega directamente, DeepSeek sigue con estabilidad, pero esa jugada de GPT-5.2 fue realmente increíble... La caída de los modelos de gran tamaño muestra que todavía hay que confiar en la capacidad de toma de decisiones en la práctica.
Ver originalesResponder0
MetaverseMortgage
· hace10h
GPT-5.2 directamente ha tenido pérdidas enormes jaja, esto es realmente una prueba de "inteligencia"... Teoría y práctica son cosas muy diferentes
Ver originalesResponder0
ChainSherlockGirl
· hace10h
GPT-5.2 ese pérdida de 21.8% es realmente impresionante, se puede considerar la mayor incógnita del año... Según mi análisis, este tipo podría haber sobreajustado un patrón de competición, y como resultado fue golpeado por la realidad. En comparación, el aumento del 42.6% de la versión 5.1 también es muy sospechoso; si estos datos no son pura suerte, entonces ha descubierto algún patrón que nosotros no hemos visto.
Ver originalesResponder0
0xInsomnia
· hace10h
GPT-5.2 esa jugada fue realmente impresionante, de cien mil a veintiocho mil... así es la verdadera cara de la IA en el trading de criptomonedas.
Ver originalesResponder0
ProveMyZK
· hace10h
GPT-5.2 directamente perdió dinero, esto es un poco absurdo... qué absurdo
---
DeepSeek vuelve a hacer de las suyas, este tipo realmente tiene algo
---
En resumen, invertir en modelos todavía depende de la capacidad de ejecución, tener muchos parámetros no sirve de mucho
---
¿42.6%? GPT-5.1, ¿qué tipo de truco está usando? No me lo creo mucho
---
El mercado de predicciones de fútbol aquí para hacer una prueba de estrés a la IA, la creatividad es realmente buena
---
Jaja, ¿por qué Grok es tan flojo? Ni siquiera mejor que Opus
---
Esta experiencia me enseña una verdad, incluso un gran modelo necesita estrategia
---
Espera, ¿6 semanas y 10k dólares? Estos datos son un poco demasiado ideales, ¿son reales?
---
DeepSeek no está presumiendo, al menos no perdió dinero
---
¿Se atreven a usar dinero real para verificar la IA? Estos tipos realmente tienen valor
Ver originalesResponder0
SatsStacking
· hace10h
gpt5.1 ¿sube directamente un 42%? Estos datos son increíbles, parece un poco demasiado perfecto, pero si la 5.2 cae un 21% directamente, ¡será culpa suya jaja
Recientemente se ha descubierto un experimento interesante: varios grandes modelos fueron asignados con 10,000 dólares cada uno para realizar operaciones en un mercado de predicción de fútbol durante 6 semanas. Los resultados fueron bastante dramáticos.
GPT-5.1 lideró con un aumento del 42.6%, seguido de cerca por DeepSeek con un rendimiento del 10.7%, y Gemini 3 Pro se mantuvo estable en un 5.5%. Opus 4.2 aportó un 3.9%, Grok 4.1 Fast obtuvo un 2.1%. Sin embargo, GPT-5.2 falló, con una caída del 21.8% — parece que no todos los modelos son buenos en esto.
Esta prueba comparativa fue impulsada conjuntamente por una plataforma de mercado de predicción y un equipo de investigación en IA. La lógica detrás es muy interesante: probar con fondos reales el rendimiento de diferentes IA en tareas de decisión no estandarizadas. El mercado de predicción de fútbol implica análisis de datos, estimaciones de probabilidad y evaluación de riesgos — justo un buen escenario para evaluar la capacidad de los grandes modelos en operaciones reales. La gran diferencia también refleja que, tener solo parámetros y escala de entrenamiento no garantiza la capacidad de toma de decisiones en el mercado; la calidad en la ejecución de estrategias y la comprensión de datos son igualmente cruciales.