OpenAI presenta GPT-5.5: 12M de contexto, el índice AA llega al primer puesto, Terminal-Bench 82,7% reescribe el punto de referencia de los agentes

OpenAI 於 4/23 正式發布 GPT-5.5,定位為面向代理式(agentic)工作與企業知識處理的主力模型,同步登上 ChatGPT 與 Codex。官方宣傳定調為「我們最聰明、最直覺易用的模型」,AA Intelligence Index 以 60 分登頂,領先 Claude Opus 4.7 與 Gemini 3.1 Pro Preview 各 3 分。

Resumen de datos clave

Indicador Comparativa GPT-5.5 (GPT-5.4 o competidor del mismo nivel) AA Intelligence Index 60 Claude Opus 4.7:57;Gemini 3.1 Pro Preview:57 Terminal-Bench 2.0 (flujo de trabajo de línea de comandos) 82.7% GPT-5.4:75.1% Expert-SWE (evaluación interna de programación de OpenAI) 73.1% GPT-5.4:68.5% Ventana de contexto 1,200 万 tokens Aumenta drásticamente, puede procesar todo el repositorio de programación de una empresa o varios horas de video Precio (por cada millón de tokens) Entrada 5 dólares, salida 30 dólares El doble de precio de GPT-5.4; pero el uso de tokens de salida baja aproximadamente 40%, el coste neto sube aproximadamente 20%

Posicionamiento: diseñado para la «era de los agentes»

OpenAI describe GPT-5.5 como un modelo base para el cálculo de tipo agentic, capaz de comprender objetivos complejos, usar herramientas, autoinspeccionar los resultados del trabajo y ejecutar tareas de varios pasos hasta completarlas sin necesidad de que los humanos intervengan en cada paso. Según una entrevista de TechCrunch, el presidente Greg Brockman describe esta versión como «un gran paso hacia la computación futura, pero solo un paso», y destaca que «en comparación con la 5.4 es un razonador más rápido y más agudo, usando menos tokens».

El científico jefe Jakub Pachocki señala que «vemos mejoras muy significativas a corto plazo»; el director de investigación Mark Chen, a su vez, enfatiza que esta versión aporta «avances significativos» en los flujos de trabajo de investigación científica y tecnológica.

Alcance de suministro y segmentación por versiones

GPT-5.5:Los usuarios Plus、Pro、Business、Enterprise pueden usarlo en ChatGPT y Codex

GPT-5.5 Pro:Una versión de razonamiento de gama más alta que los usuarios Pro、Business、Enterprise pueden usar en ChatGPT

Integración con Codex:Disponible de forma simultánea en las herramientas de agentes de programación de OpenAI, reforzando la edición de múltiples archivos, la línea de comandos y los ciclos de prueba

Aumenta simultáneamente el discurso sobre ciberseguridad y defensa

La integrante del equipo técnico Mia Glaese, al ser entrevistada por TechCrunch, indicó que la capacidad de ciberseguridad de GPT-5.5 tendrá «un impacto importante» en la forma en que OpenAI «despliega los modelos para invertir en defensa digital». Este planteamiento contrasta directamente con la controversia reciente de Anthropic en torno a su modelo de ciberseguridad de nivel “armas” para Claude Mythos—Altman criticó previamente la estrategia de «marketing del miedo» de Anthropic en el programa《Core Memory》. En GPT-5.5, OpenAI pone aún más énfasis en el discurso de «ataque y defensa, desplegable», con la intención de marcar una diferencia frente a la postura de Anthropic de limitar el acceso.

Cambio en la estrategia de precios

El precio por cada millón de tokens de GPT-5.5 se duplica a 5 dólares de entrada y 30 dólares de salida, lo que supone la primera generación en el que se observa un aumento significativo del precio unitario en la serie GPT-5. La explicación de OpenAI es que, gracias a que el modelo puede reducir alrededor del 40% el uso de tokens de salida debido a la eficiencia de razonamiento, la factura real de las tareas típicas es aproximadamente un 20% más alta que la de GPT-5.4, en lugar de ser simplemente el doble. Para las empresas, la toma de decisiones pasa de «si el precio unitario vale la pena» a «si, con el mismo prompt, GPT-5.5 puede completar tareas más complejas en un escenario de menos tokens totales».

Señales para la industria

GPT-5.5 amplía la brecha de OpenAI en Terminal-Bench y las evaluaciones internas de SWE; estos dos puntos de referencia prueban respectivamente la ejecución de agentes en línea de comandos y tareas reales de ingeniería de software—frente al duelo positivo entre Codex y Claude Code, se trata de un campo de batalla de puntuaciones más directo. Sumado a la apertura simultánea de una ventana de contexto de 12,000,000 tokens, OpenAI presiona al mismo tiempo dos rutas de carrera: «procesamiento integral de bases de conocimiento empresariales» y «agentes de tareas largas». Para Anthropic, Claude Opus 4.7 va 3 puntos por detrás en el AA Index con 57 puntos; para los usuarios de Claude Code también existe una razón más para observar el progreso de la próxima generación (Opus 4.8 o un Claude de nueva generación).

Este artículo sobre cómo OpenAI impulsa GPT-5.5: 12M de contexto, lidera el AA Index, Terminal-Bench 82.7% reescribe el benchmark de agentes. Aparece por primera vez en 鏈新聞 ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

El profeta lanza un mercado de predicción impulsado por IA con una ronda en vivo de operaciones por valor de 10.000 dólares hoy

Según MetaversePost, Prophet lanzó hoy (6 de mayo) un mercado de predicción impulsado por IA con 10.000 USDC asignados a la negociación en vivo. Los usuarios pueden operar directamente contra una contraparte de IA que genera precios basados en probabilidades para cada mercado, con algunos contratos que se liquidan en un plazo de 24

GateNewshace1h

Tessera Labs cierra la Serie A liderada por a16z; el equipo de IA de seis personas sustituye a 60 consultores de SAP

Según Beating, Tessera Labs, una empresa de integración de sistemas de IA, completó una ronda de financiación de la Serie A liderada por a16z. La startup, fundada en 2024, utiliza una plataforma de multiagentes para automatizar migraciones de SAP ECC a S/4HANA, que tradicionalmente requieren entre 3 y 5 años y entre 100 millones de dólares y 500 millones de dólares por

GateNewshace1h

¿El TAI (índice) se mantiene por encima de los 40.000 puntos, Wall Street marca nuevos máximos, pero la industria de la IA apenas está entrando en la etapa inicial?

Goldman Sachs指出,la demanda de IA aumentará significativamente el consumo de tokens debido a cargas de trabajo de agentes orientados al consumo; en 2030, el crecimiento podría superar 12 veces, con capacidad mensual de cálculo de tokens que podría llegar a 60 billones. En cuanto a los agentes no y los consumer agent, la diferencia está en la automatización de tareas durante largos periodos; si esto se cumple, la IA entrará en flujos de trabajo agentic. Larry Fink afirma que la oferta de capacidad de cómputo es gravemente insuficiente y que en el futuro podrían aparecer futuros de capacidad de cómputo; ambos, en conjunto, respaldan la tesis alcista para la infraestructura de IA. El artículo sostiene que la IA aún se encuentra en una etapa temprana.

ChainNewsAbmediahace2h

El proyecto de IA de la comunidad WLFI, WorldClaw, lanzó un sistema operativo de agentes; ¿sin revelar la marca aún puede venderlo por 10.000 USD?

La familia de Trump vuelve a lanzar una nueva estrategia con el proyecto cripto World Liberty Financial (WLFI), aliándose con WorldClaw para presentar un modelo de IA con un punto de entrada unificado llamado WorldRouter. Lo promocionan como una plataforma de agentes que integra 300 modelos de IA, y el plan de pago más alto cuesta cerca de 10 mil dólares, pero el obsequio incluido es un dispositivo de hardware “de marca y sistema operativo no revelados”, lo que ha despertado dudas en el entorno. @WorldClawAI está ampliando el acceso a la IA y $WLFI desempeña un papel clave en el ecosistema. Los usuarios pueden acceder a 300+ modelos con WorldRouter, y los agentes pueden

ChainNewsAbmediahace5h

Meta desarrolla un asistente de IA, Hatch, para competir con OpenClaw, y completará la fase de pruebas internas antes de finales de junio

De acuerdo con el Financial Times, el 5 de mayo, Meta está desarrollando un asistente de IA para el público general (Hatch), inspirado en OpenClaw, de OpenAI, con el objetivo de completar las pruebas internas antes de finales de junio; Meta también planea, antes del cuarto trimestre de este año, integrar una herramienta de compras autónoma basada en agentes en los servicios de Instagram de la compañía.

MarketWhisperhace6h

Cloudflare: el tráfico no humano ahora es la mayoría, direcciones de la x402 Foundation en la economía web

El director de Estrategia de Cloudflare afirmó que más de la mitad del tráfico de internet ahora es no humano, destacando un cambio en los patrones de uso de la web impulsado por agentes de IA. La empresa señala a la x402 Foundation como una iniciativa clave para construir infraestructura que respalde una economía sostenible de contenidos digitales

CryptoFrontierhace7h
Comentar
0/400
Sin comentarios