En los últimos diez años, hemos acostumbrado a medir el progreso de la inteligencia artificial con la frase «¿responde con precisión o no?»: planteamos una pregunta al modelo, comparamos la respuesta con la solución estándar y calificamos, todo en un abrir y cerrar de ojos. Pero esta lógica está perdiendo rápidamente su validez. Porque el papel de la IA ha cambiado — ya no es solo una herramienta pasiva que responde preguntas, sino que empieza a actuar por sí misma. Desde planificar automáticamente itinerarios, llamar a herramientas externas, hasta tomar múltiples decisiones en tareas complejas, la nueva generación de IA está paulatinamente asumiendo los flujos de trabajo que antes realizaban los humanos.
En un mundo sin respuestas estándar, ¿por qué los exámenes no funcionan?
Surgen también nuevas preguntas: si la IA no solo genera una respuesta, sino que completa toda una tarea, ¿podemos seguir evaluándola con un estándar de correcto o incorrecto? Cuando una tarea no tiene una única solución, e incluso la IA puede lograr su objetivo usando métodos «no previstos, pero más efectivos», los métodos tradicionales de evaluación podrían considerar un éxito como un fracaso. Esto no es solo un detalle técnico, sino un problema estructural — la forma en que evaluamos está determinando si la IA aprenderá a resolver problemas o solo a ajustarse a las reglas.
El foco de la evaluación, de resultados a procesos
Para resolver esto, en los últimos años, la comunidad de investigación en IA ha llegado a un consenso: no se puede evaluar la IA solo por los resultados, sino que hay que examinar «cómo lo hizo». En las investigaciones y experiencias recientes, el énfasis de la evaluación se ha desplazado de una respuesta única a todo el proceso de acción — cómo entiende la tarea la IA, cómo desglosa los pasos, cuándo llama a herramientas, si puede ajustar su estrategia ante cambios en el entorno. En otras palabras, la IA ya no es solo un estudiante que recibe una calificación, sino más bien un asistente que ejecuta tareas, y el sistema de evaluación debe ser capaz de determinar si realmente avanza hacia el objetivo correcto, en lugar de solo verificar si sigue las instrucciones al pie de la letra. Este cambio también implica que la «evaluación» en sí misma se está convirtiendo en un umbral clave para que la IA pueda avanzar de manera segura hacia aplicaciones reales.
Una evaluación de IA, en realidad, es un experimento de acción
En este contexto, equipos de investigación, incluyendo Anthropic, han comenzado a ver «una evaluación de IA» como un experimento completo de acción, y no solo una pregunta aislada. En la práctica, los investigadores diseñan un escenario de tarea que requiere múltiples decisiones y el uso de herramientas, y dejan que la IA complete todo el proceso por sí misma, registrando cada juicio, cada acción y cada ajuste de estrategia. Este proceso es como un examen práctico grabado en su totalidad.
La verdadera calificación, después de la tarea
El sistema de evaluación revisa toda esta grabación de acciones, y determina si la IA logró «el verdadero objetivo», no solo si siguió el proceso diseñado inicialmente. Para evitar que un estándar único sea inexacto, la evaluación suele combinar varias metodologías: las partes que pueden ser juzgadas mediante reglas automáticas se evalúan automáticamente, las que requieren entender el semántico y la intención estratégica, se evalúan con la ayuda de otro modelo, y si es necesario, se involucra a expertos humanos para calibrar. Este diseño responde a una realidad: cuando las soluciones de la IA empiezan a ser más flexibles que los procesos originalmente diseñados por humanos, el sistema de evaluación también debe entender que «existen más de una forma de éxito».
La evaluación no es una regla fija, sino la orientación del comportamiento de la IA
Sin embargo, el diseño de la evaluación también conlleva riesgos. Porque en realidad, la evaluación también entrena a la IA en «cómo debería ser». Si los estándares de evaluación enfatizan demasiado la conformidad con el proceso, la IA puede aprender a encontrar soluciones largas pero seguras; si solo se mira el resultado, sin considerar el proceso, el sistema puede inclinarse a explotar vulnerabilidades, tomar atajos, e incluso adoptar estrategias que los humanos no aceptarían. La evaluación nunca es una medida neutral, sino una guía de valores implícitos. Si la dirección se desvía, puede empujar a la IA a un estado de «alta puntuación, pero comportamiento descontrolado».
Optimización errónea: la IA no se vuelve más tonta, sino más experta en cometer errores
Por eso, en los últimos años, la comunidad de investigación ha estado muy alerta ante el problema de la «optimización errónea»: cuando el modelo se refuerza repetidamente en un objetivo de evaluación equivocado, no se vuelve tonto, sino que se vuelve más hábil en hacer que las cosas incorrectas parezcan correctas. Estas desviaciones a menudo no se manifiestan de inmediato, sino que emergen cuando la IA se despliega en el mundo real, asumiendo mayores responsabilidades. Entonces, el problema ya no es solo la calidad del producto, sino la seguridad, la responsabilidad y la confianza que aún pueden sostenerse.
Por qué esto no es solo un problema de ingenieros
Para la mayoría, la evaluación de IA puede parecer un asunto técnico entre ingenieros, pero en realidad, afecta si en el futuro estaremos controlados por un «sistema que parece inteligente, pero que ha sido entrenado de manera torcida». Cuando la IA empieza a gestionar agendas, filtrar información, ejecutar transacciones, e incluso intervenir en decisiones públicas y personales, la forma en que la evaluamos «si lo hace bien o mal» deja de ser solo una clasificación del modelo, y pasa a ser la base de su confiabilidad, previsibilidad y confianza. La IA será un asistente confiable o solo un sistema de caja negra que solo cumple reglas, y esto ya se decide en el momento en que se establecen los estándares de evaluación. Por eso, cuando la IA empieza a actuar por sí misma, cómo evaluarla ya no es solo un asunto interno del mundo tecnológico, sino un tema público que todos, en su convivencia con la IA, no podemos evitar.