Caídas de rendimiento de Claude Fable 5 en evaluaciones comparativas, pero el clasificador de seguridad—no el modelo—es culpado por fallos de enrutamiento.

Según BridgeBench AI y Arena.AI, la reincorporación de Claude Fable 5 el 1 de julio desencadenó resultados de referencia contradictorios. BridgeBench reportó que las puntuaciones de depuración se desplomaron de 86,2 a 25,9, pero los datos mostraron que nueve de doce tareas fueron redirigidas a Opus 4,8 por el nuevo clasificador de seguridad de Anthropic, en lugar de llegar al propio Fable 5. Mientras tanto, los miles de votos de preferencia humana de Arena.AI encontraron que el rendimiento de Fable 5 se mantuvo plano o mejoró en la mayoría de las categorías cuando el modelo realmente manejó las solicitudes, con un rendimiento en documentos que subió 34 puntos Elo y texto experto que subió 25.

La distinción importa: los usuarios generales en escritura creativa, investigación y análisis de texto verán una diferencia mínima, mientras que los desarrolladores que trabajan en reparación y depuración de código enfrentan un enrutamiento de respaldo constante. Anthropic reconoció que los nuevos clasificadores lanzaron una red demasiado amplia al bloquear indicaciones relacionadas con explotaciones y dijo que las mejoras llegarán con el tiempo, pero no proporcionó un cronograma.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios