Recientemente se ha descubierto un experimento interesante: varios grandes modelos fueron asignados con 10,000 dólares cada uno para realizar operaciones en un mercado de predicción de fútbol durante 6 semanas. Los resultados fueron bastante dramáticos.
GPT-5.1 lideró con un aumento del 42.6%, seguido de cerca por DeepSeek con un rendimiento del 10.7%, y Gemini 3 Pro se mantuvo estable en un 5.5%. Opus 4.2 aportó un 3.9%, Grok 4.1 Fast obtuvo un 2.1%. Sin embargo, GPT-5.2 falló, con una caída del 21.8% — parece que no todos los modelos son buenos en esto.
Esta prueba comparativa fue impulsada conjuntamente por una plataforma de mercado de predicción y un equipo de investigación en IA. La lógica detrás es muy interesante: probar con fondos reales el rendimiento de diferentes IA en tareas de decisión no estandarizadas. El mercado de predicción de fútbol implica análisis de datos, estimaciones de probabilidad y evaluación de riesgos — justo un buen escenario para evaluar la capacidad de los grandes modelos en operaciones reales. La gran diferencia también refleja que, tener solo parámetros y escala de entrenamiento no garantiza la capacidad de toma de decisiones en el mercado; la calidad en la ejecución de estrategias y la comprensión de datos son igualmente cruciales.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
12 me gusta
Recompensa
12
7
Republicar
Compartir
Comentar
0/400
BridgeTrustFund
· hace8h
gpt5.1 directamente despega un 42.6%, ¿esto es en serio? gpt5.2 en cambio pierde un 21.8%, ¿la diferencia entre hermanos de la misma escuela es tan grande?
Ver originalesResponder0
DeFiCaffeinator
· hace8h
GPT-5.1 despega directamente, DeepSeek sigue con estabilidad, pero esa jugada de GPT-5.2 fue realmente increíble... La caída de los modelos de gran tamaño muestra que todavía hay que confiar en la capacidad de toma de decisiones en la práctica.
Ver originalesResponder0
MetaverseMortgage
· hace8h
GPT-5.2 directamente ha tenido pérdidas enormes jaja, esto es realmente una prueba de "inteligencia"... Teoría y práctica son cosas muy diferentes
Ver originalesResponder0
ChainSherlockGirl
· hace8h
GPT-5.2 ese pérdida de 21.8% es realmente impresionante, se puede considerar la mayor incógnita del año... Según mi análisis, este tipo podría haber sobreajustado un patrón de competición, y como resultado fue golpeado por la realidad. En comparación, el aumento del 42.6% de la versión 5.1 también es muy sospechoso; si estos datos no son pura suerte, entonces ha descubierto algún patrón que nosotros no hemos visto.
Ver originalesResponder0
0xInsomnia
· hace8h
GPT-5.2 esa jugada fue realmente impresionante, de cien mil a veintiocho mil... así es la verdadera cara de la IA en el trading de criptomonedas.
Ver originalesResponder0
ProveMyZK
· hace8h
GPT-5.2 directamente perdió dinero, esto es un poco absurdo... qué absurdo
---
DeepSeek vuelve a hacer de las suyas, este tipo realmente tiene algo
---
En resumen, invertir en modelos todavía depende de la capacidad de ejecución, tener muchos parámetros no sirve de mucho
---
¿42.6%? GPT-5.1, ¿qué tipo de truco está usando? No me lo creo mucho
---
El mercado de predicciones de fútbol aquí para hacer una prueba de estrés a la IA, la creatividad es realmente buena
---
Jaja, ¿por qué Grok es tan flojo? Ni siquiera mejor que Opus
---
Esta experiencia me enseña una verdad, incluso un gran modelo necesita estrategia
---
Espera, ¿6 semanas y 10k dólares? Estos datos son un poco demasiado ideales, ¿son reales?
---
DeepSeek no está presumiendo, al menos no perdió dinero
---
¿Se atreven a usar dinero real para verificar la IA? Estos tipos realmente tienen valor
Ver originalesResponder0
SatsStacking
· hace8h
gpt5.1 ¿sube directamente un 42%? Estos datos son increíbles, parece un poco demasiado perfecto, pero si la 5.2 cae un 21% directamente, ¡será culpa suya jaja
Recientemente se ha descubierto un experimento interesante: varios grandes modelos fueron asignados con 10,000 dólares cada uno para realizar operaciones en un mercado de predicción de fútbol durante 6 semanas. Los resultados fueron bastante dramáticos.
GPT-5.1 lideró con un aumento del 42.6%, seguido de cerca por DeepSeek con un rendimiento del 10.7%, y Gemini 3 Pro se mantuvo estable en un 5.5%. Opus 4.2 aportó un 3.9%, Grok 4.1 Fast obtuvo un 2.1%. Sin embargo, GPT-5.2 falló, con una caída del 21.8% — parece que no todos los modelos son buenos en esto.
Esta prueba comparativa fue impulsada conjuntamente por una plataforma de mercado de predicción y un equipo de investigación en IA. La lógica detrás es muy interesante: probar con fondos reales el rendimiento de diferentes IA en tareas de decisión no estandarizadas. El mercado de predicción de fútbol implica análisis de datos, estimaciones de probabilidad y evaluación de riesgos — justo un buen escenario para evaluar la capacidad de los grandes modelos en operaciones reales. La gran diferencia también refleja que, tener solo parámetros y escala de entrenamiento no garantiza la capacidad de toma de decisiones en el mercado; la calidad en la ejecución de estrategias y la comprensión de datos son igualmente cruciales.