Anthropic se descubre que Claude Code tiene tres fallos superpuestos: degradación del razonamiento, olvido del caché y reacción adversa de comandos de 25 caracteres

Anthropic 於 4/23 發佈 Claude Code 品質事故檢討,公開承認過去近兩個月內三個疊加的工程錯誤造成 Claude Code 使用品質下降,並同步將影響波及 Claude Agent SDK 與 Claude Cowork。公司表示「我們非常重視關於模型退化的回報,從未故意降低模型能力」,並於 4/23 為所有訂閱者重置用量上限作為補償。

Tres cronologías de los tres bugs y las causas técnicas subyacentes

Problema Período de vigencia Causa raíz Versión de reparación Degradación del presupuesto de inferencia 3/4–4/7 effort de reasoning; por defecto pasa de high a medium, el usuario percibe que el modelo “se vuelve más tonto” 4/7 Reversión Limpieza de caché bug 3/26–4/10 “thinking” de sesiones inactivas de más de 1 hora; la caché se limpia en cada ronda, no solo una vez v2.1.101 Prompt conciso con efecto rebote 4/16–4/20 nueva instrucción del sistema “texto entre llamadas a herramientas ≤25 caracteres”, el ablation detecta una disminución global de la inteligencia 3% v2.1.116

Degradación del razonamiento: el costo de reducir la latencia

3/4 Anthropic ajustó el effort de reasoning de Claude Code por defecto de high a medium, con el objetivo de acortar la latencia de respuesta. Pero este cambio hace que el modelo se sienta “más tonto” en tareas de razonamiento de código y depuración. Después de la reversión del 4/7, ahora Opus 4.7 tiene por defecto xhigh, mientras que los otros modelos mantienen high. La empresa admite: la evaluación interna antes del cambio no logró detectar esta degradación.

Bug de limpieza de caché: un error implícito en el límite entre sistemas

3/26 Anthropic introdujo una optimización de prompt caching para sesiones inactivas de más de una hora. El diseño original era “limpiar el caché de thinking una vez cuando se alcanza una hora de inactividad”, pero en la práctica se convirtió en “al activarse la inactividad, limpiar en cada ronda”, lo que provoca que Claude se comporte con “amnesia, repetición” en sesiones largas, y que los cache miss en cada ronda consuman rápidamente el uso del usuario. Anthropic señaló que este bug “existe en la intersección del manejo del contexto de Claude Code, la Anthropic API y el extended thinking”, involucrando múltiples límites de sistemas, y que es un error implícito difícil de capturar con pruebas unitarias. La reparación se publicó el 4/10 en v2.1.101.

Instrucción concisa de 25 caracteres: solo el ablation descubre una disminución de inteligencia del 3%

4/16 Anthropic añadió una instrucción del sistema: “la salida de texto entre llamadas a herramientas debe mantenerse dentro de 25 caracteres”, con la intención de reducir explicaciones extensas del modelo y hacer la experiencia más limpia. En ese momento, las pruebas internas no detectaron la degradación, pero tras un ablation comparativo más riguroso, la compañía descubrió que esta instrucción provocó aproximadamente una caída global de la inteligencia de 3% en ambos modelos, Opus 4.6 y 4.7. El 4/20 se revirtió en v2.1.116. Este incidente pone de relieve que incluso una redacción pequeña de un system prompt puede producir un impacto estructural no previsto en el comportamiento del modelo.

Alcance del impacto

Capa de producto: Claude Code (los tres problemas se ven afectados), Claude Agent SDK (①②), Claude Cowork (todos)

Capa de modelo: Sonnet 4.6, Opus 4.6, Opus 4.7

Infraestructura base de API: no se vio afectada

En términos de percepción del usuario, se manifestó como: disminución de la calidad de respuesta y de la “inteligencia”, aumento de la latencia, pérdida de contexto a mitad de conversation, y consumo de uso más rápido que el esperado.

Compensación y mejoras de proceso

Anthropic, el 4/23, reinició el límite de uso para todos los suscriptores como compensación directa. A la par, las mejoras de proceso prometidas incluyen:

Implementar un paquete de evaluaciones (evaluation suite) más amplio para cambios de system prompt

Mejorar la herramienta de Code Review para detectar regresiones antes

Estandarizar los criterios de las pruebas internas en un build público, evitando la divergencia entre “versiones internas” y “versiones para el exterior”

Añadir un período de soak y un rollout progresivo a los cambios que puedan afectar la inteligencia del modelo

A las enseñanzas para los usuarios

Para los usuarios que dependen de Claude Code para el desarrollo y la investigación diarios, este postmortem tiene tres puntos clave para llevarse: primero, si entre mediados de marzo y el 20 de abril percibiste que el modelo Claude “se ponía más tonto”, o si Claude Code tuvo un olvido anormal en sesiones largas, no era una falsa impresión tuya ni un prompt inadecuado; segundo, los usuarios que durante ese período vieron que el límite de uso se consumía rápidamente pueden verificar después del 4/23 si Anthropic ya lo ha restablecido automáticamente; tercero, incluso un ajuste de prompt de “menos de 25 caracteres” puede generar un impacto sistémico en el comportamiento global del modelo: este es un riesgo común en la ingeniería de productos LLM.

En comparación con otros competidores que suelen responder con silencio o “esto es un mal uso por parte del usuario” cuando se cuestiona la degradación del modelo, la divulgación proactiva de Anthropic y su transparencia técnica establecen un ejemplo de referencia para la revisión de incidentes de productos de IA.

Este artículo sobre cómo Anthropic reconoció tres bugs superpuestos en Claude Code: degradación del razonamiento, olvido en caché, y efecto rebote de la instrucción de 25 caracteres, apareció por primera vez en 鏈新聞 ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

Hoskinson analiza el papel de Midnight en el ecosistema de Cardano en The Breakdown

Charles Hoskinson, fundador de Cardano y cofundador de Ethereum, apareció como invitado en el episodio 701 del podcast “The Breakdown”, presentado por David Gokhshtein, para hablar sobre el proyecto Midnight, los retos de la experiencia de usuario en cripto y su visión para el futuro de la blockchain. Durante la entrevista, Hoskinson

CryptoFrontierHace42m

El negocio de Berkshire Energy ve una oportunidad de crecimiento impulsada por la demanda de energía basada en IA

Según Beating, en la junta de accionistas de Berkshire, el CEO Abel destacó que la demanda de electricidad impulsada por la IA está creando nuevas oportunidades de crecimiento para el negocio energético de la compañía, y que la mitad de sus empresas de servicios eléctricos ya atienden requisitos de energía relacionados con IA. En Iowa, los centros de datos ahora contabilizan…

GateNewshace3h

Testimonios de la primera semana del litigio entre Musk y Altman: admite que XAI “destiló” OpenAI y advierte que la IA es como un Terminator

Según las declaraciones de la primera semana del juicio en el tribunal federal de Oakland, Musk acusó a Altman y a Brockman de haber engañado fondos sin fines de lucro en etapas tempranas, advirtió sobre el riesgo de un apocalipsis de la IA y admitió que parte del modelo de xAI se destiló a partir de modelos de OpenAI; también declaró que invirtió 38 millones de dólares y presenció la transición de OpenAI de una entidad sin fines de lucro a una valoración de 800 mil millones de dólares. Se considera que la inversión de Microsoft en 2022 fue el punto de inflexión de la ruptura de la confianza. OpenAI sostiene que Musk intentó reclutar talento y se defiende alegando motivaciones competitivas. En la segunda semana, los testigos posteriores incluyeron a Russell y Brockman.

ChainNewsAbmediahace5h

La IA vinculada a Trump compra Block Street por 43 millones de dólares

Según Fortune, AI Financial, una empresa de criptomonedas vinculada a la familia Trump y antes conocida como Alt5 Sigma, adquirió Block Street, una empresa de infraestructura cripto, por 43 millones de dólares la semana pasada. Matthew Morgan, asesor de AI Financial y CEO de Block Street, afirmó que la adquisición no fue una

GateNewshace5h

Las acciones de Riot suben un 8% tras ampliar el acuerdo de centros de datos con AMD

Las acciones del minero de Bitcoin Riot subieron 8% tras la ampliación de su acuerdo con AMD para centros de datos. La asociación ampliada incluye mejores condiciones de financiación, lo que pone de relieve el cambio estratégico de Riot de la minería de bitcoin hacia las operaciones de centros de datos de inteligencia artificial. La medida señala una confianza creciente

GateNewshace8h

Minnesota prohíbe herramientas de imágenes íntimas no consensuadas con IA e impone multas de hasta $500K

Según Decrypt, la legislatura de Minnesota aprobó un proyecto de ley el 2 de mayo que prohíbe que los sitios web y las aplicaciones proporcionen herramientas de IA que generen imágenes íntimas no consentidas de personas identificables. La ley impide que las plataformas permitan a los usuarios acceder o usar esas herramientas de “deepfake”, y prohíbe

GateNewshace9h
Comentar
0/400
Sin comentarios