Análisis de Berkeley GEPA: la IA puede aprender nuevas tareas sin actualizar los pesos, 35 veces menos coste de entrenamiento que con RL

El equipo de investigación de la Universidad de California en Berkeley propuso un nuevo método de entrenamiento de IA: GEPA. Ya fue aceptado por ICLR 2026 como paper Oral. GEPA no actualiza los pesos del modelo ni requiere entrenamiento con GPU: solo utiliza un LLM que “lee los registros de entrenamiento” para reescribir repetidamente las instrucciones del sistema de un sistema de IA. Así, en 6 tareas promedia ganar al enfoque de aprendizaje por refuerzo dominante GRPO en un 6%, con una victoria máxima del 20%, y requiere 35 veces menos intentos de entrenamiento (rollouts). Tras ser organizada por la comunidad de ingeniería de IA y difundida, generó debates en la plataforma X; ahora ya se integró en DSPy como un optimizador de primera clase.

Qué hace GEPA: convertir los registros de entrenamiento en material didáctico, no solo mirar puntuaciones

El flujo de trabajo de los métodos tradicionales de aprendizaje por refuerzo (como GRPO) es: hacer que la IA ejecute una tarea una vez, asignar una puntuación “+1 o -1” según el resultado, y luego usar esa puntuación para ajustar de forma iterativa los pesos del modelo. El problema es que el proceso de ejecutar la tarea una vez suele incluir pasos de razonamiento de miles de tokens, llamadas a herramientas y mensajes de error; todos esos detalles ricos se comprimen en una sola puntuación y se pierde la información del proceso. Por eso, el RL necesita ejecutarse decenas de miles de veces para converger.

El enfoque de GEPA es lo contrario: después de que la IA termina una tarea, la entrega íntegra (reasoning, llamadas a herramientas, registros de fallos) a otro “LLM de reflexión” para que lo lea. El LLM de reflexión actúa como un ingeniero sénior que interpreta logs de código: identifica en qué paso ocurrió el error, por qué ocurrió y cómo se debería modificar el prompt; luego reescribe directamente el prompt del módulo correspondiente. Con la misma cantidad de ejecuciones de tareas, la cantidad de señal que GEPA extrae es mucho mayor que la puntuación única del RL.

Por qué puede ganar: pasar de “calificar” a “leer todo el proceso”

GEPA gana en 6 tareas en promedio a GRPO en un 6%, y su mayor ventaja llega al 20%; además, frente a otro optimizador de prompts dominante, MIPROv2, también supera en más de 10% (mejora del 12% en el benchmark de matemáticas AIME-2025). Lo más importante es el costo de entrenamiento: GEPA requiere 35 veces menos rollouts (una ejecución completa de la tarea) para alcanzar un rendimiento equivalente.

Otro dato es que, tras integrar GEPA con DSPy, el “Full Program Adapter” puede optimizar todo el programa de DSPy (incluyendo signature, módulos y flujo de control). En el benchmark de MATH logra un 93% de precisión, superando ampliamente el estilo ChainOfThought de DSPy original, que queda en 67%. GEPA también se desempeña especialmente bien en flujos de trabajo multi-module (agentes de IA que encadenan múltiples módulos): puede apuntar con precisión al módulo que falla y reescribir su prompt, en lugar de ajustar todo el sistema.

Quién lo adoptará primero: DSPy como ciudadano de primera clase; GitHub ya lo publicó como open source

El código de GEPA se publicó en GitHub, e integra el framework de DSPy en la forma de dspy.GEPA; también se lanzó de forma independiente como una librería de Python. El equipo de investigación colabora entre UC Berkeley, Stanford, Notre Dame, Anthropic y otras instituciones. Los autores del paper incluyen Matei Zaharia (cofundador de Databricks y autor principal de DSPy) y Omar Khattab (autor principal de DSPy).

Para la comunidad de desarrolladores, GEPA ofrece una nueva solución para “tener una gran cantidad de rollouts pero no saber cómo aprovecharlos”: la mayoría de los equipos ya han acumulado miles de registros de ejecución de agentes, pero además de revisar algunas muestras para corregir bugs cuando algo falla, no existe un método sistemático para convertir esos registros en mejoras del modelo. El siguiente punto a observar es la adopción real de GEPA en entornos empresariales agentic (como automatización de atención al cliente o reparación automática de programas), y si aparecerán implementaciones equivalentes de GEPA que no dependan del marco DSPy.

Este artículo “Berkeley GEPA解析:不更新权重就能让 AI 学会新任務、35 倍少訓練成本勝 RL” apareció primero en la cuenta de cadena de noticias ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

OpenAI lanza Codex Pets, un compañero virtual impulsado por IA con generación personalizada

Beating afirma que OpenAI ha añadido una nueva función de “Codex Pets” a la aplicación de escritorio de Codex, que permite a los usuarios generar e interactuar con un compañero virtual animado. Los usuarios pueden activar una mascota escribiendo /pet en el editor. La función funciona como un indicador del estado del agente, mostrando un

GateNewshace6h

MoonPay lanza la tarjeta MoonAgents para agentes de IA en la red de Mastercard

Según The Block, MoonPay lanzó la MoonAgents Card el viernes, una tarjeta de débito Mastercard virtual que convierte stablecoins en efectivo fiduciario en tiempo real en el punto de pago. La tarjeta se emite a través de Monavate, una plataforma de pagos regulada y miembro principal de Mastercard, en asociación con Exodus M

GateNewshace10h

xAI lanza una API de clonación de voz que admite 80+ voces en 28 idiomas

De acuerdo con PANews, xAI lanzó su API de Clonación de Voz el 2 de mayo, lo que permite a los usuarios crear voces personalizadas en aproximadamente 2 minutos o seleccionar entre 80+ voces preestablecidas que abarcan 28 idiomas para aplicaciones que incluyen asistentes de voz, audiolibros y personajes de videojuegos. La función actualmente está

GateNewshace11h

MoonPay lanza la tarjeta MoonAgents, una Mastercard virtual para agentes de IA y usuarios, el viernes

De acuerdo con The Block, MoonPay lanzó MoonAgents Card, una tarjeta de débito Mastercard virtual para agentes de IA y usuarios, el viernes. La tarjeta convierte stablecoins en fiat en el punto de pago y puede usarse en cualquier comerciante en línea a nivel mundial que acepte Mastercard. Emitida a través de Monavate, un pago regulado

GateNewshace20h

MoonPay lanza la tarjeta MoonAgents en la red Mastercard este viernes

Según The Block, MoonPay lanzó la MoonAgents Card el viernes, una tarjeta virtual de débito Mastercard que permite que los agentes de IA y los usuarios gasten stablecoins directamente desde carteras onchain. La tarjeta se emite a través de Monavate, una plataforma global de pagos regulada y miembro principal de Mastercard, en

GateNewshace22h

Nubank planea invertir 8,2 mil millones de dólares en Brasil para 2026, duplicando el gasto en IA y la expansión del crédito

Según Crowdfundinsider, Nubank anunció planes para invertir 8,2 mil millones de dólares en el mercado brasileño en 2026, casi duplicando su inversión frente a dos años antes. Los fondos se destinarán a sistemas de evaluación de crédito impulsados por IA, productos financieros digitales, ampliación del equipo, infraestructura

GateNewshace23h
Comentar
0/400
Sin comentarios