Anthropic identifiziert drei Änderungen auf Produktebene hinter dem Qualitätsrückgang von Claude Code, nicht ein Modellproblem

Gate News-Meldung, 23. April — Das Engineering-Team von Anthropic bestätigte, dass die von Nutzern über den vergangenen Monat gemeldete Qualitätsverschlechterung von Claude Code auf drei unabhängige Änderungen auf Produktebene zurückzuführen ist, nicht auf Probleme mit der API oder dem zugrunde liegenden Modell. Die drei Probleme wurden jeweils am 7. April, am 10. April und am 20. April behoben, wobei die finale Version jetzt v2.1.116 ist.

Die erste Änderung erfolgte am 4. März, als das Team die standardmäßige Stufe des Rechenaufwands für Claude Code von „high“ auf „medium“ reduzierte, um gelegentliche extreme Latenzspitzen in Opus 4.6 bei hoher Rechenintensität zu adressieren. Nach weitreichender Kritik von Nutzern an der verminderten Leistung setzte das Team die Änderung am 7. April zurück. Der aktuelle Standard ist nun „xhigh“ für Opus 4.7 und „high“ für andere Modelle.

Das zweite Problem war ein Bug, der am 26. März eingeführt wurde. Das System war so ausgelegt, alte Aufzeichnungen zum Rechenaufwand nach Konversationsinaktivität zu bereinigen, die eine Stunde überschritt, um die Kosten für die Sitzungswiederherstellung zu reduzieren. Ein Fehler in der Implementierung führte jedoch dazu, dass das Bereinigen bei jeder nachfolgenden Antwort wiederholt ausgeführt wurde, statt nur einmal, wodurch das Modell schrittweise den vorherigen Kontext zum Rechenaufwand verlor. Dies zeigte sich als zunehmende Vergesslichkeit, wiederholte Operationen und abnorme Tool-Aufrufe. Der Bug führte außerdem zu Cache-Misses bei jeder Anfrage, wodurch der Verbrauch von Nutzerkontingenten beschleunigt wurde. Zwei unbeteiligte interne Experimente verdeckten die Bedingungen für die Reproduktion und verlängerten den Debugging-Prozess auf über eine Woche. Nachdem der Bug am 10. April behoben worden war, überprüfte das Team problematischen Code mit Opus 4.7 und stellte fest, dass Opus 4.7 den Bug erkennen konnte, Opus 4.6 jedoch nicht.

Die dritte Änderung wurde am 16. April zusammen mit Opus 4.7 eingeführt. Das Team ergänzte Anweisungen in den System-Prompt, um redundante Ausgaben zu reduzieren. Interne Tests über mehrere Wochen zeigten keine Regression, aber nach dem Launch verschlechterte die Interaktion mit anderen Prompts die Codequalität. Eine erweiterte Evaluierung ergab einen 3%-Leistungsabfall in sowohl Opus 4.6 als auch 4.7, was zu einem Rollback am 20. April führte.

Diese drei Änderungen betrafen unterschiedliche Nutzergruppen zu unterschiedlichen Zeiten, und ihre kombinierte Wirkung führte zu einem weitverbreiteten und uneinheitlichen Qualitätsrückgang, was die Diagnose erschwerte. Anthropic erklärte, dass man nun mehr interne Mitarbeitende benötigen werde, um wie Nutzer dieselbe öffentliche Build-Version zu verwenden, vollständige Model-Evaluations-Suites für jede Änderung am System-Prompt auszuführen und gestufte Rollout-Zeiträume zu implementieren. Als Ausgleich hat Anthropic die Nutzungskontingente für alle Abonnenten zurückgesetzt.

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Verwandte Artikel

DeepSeek senkt die Input-Cache-Preise auf 1/10 des Startpreises; V4-Pro fällt auf 0,025 Yuan pro Million Tokens

Gate News-Mitteilung, 26. April — DeepSeek hat die Preise für den Input-Cache über das gesamte Modellportfolio auf ein Zehntel der Startpreise reduziert, mit sofortiger Wirkung. Das V4-Pro-Modell ist für einen begrenzten Zeitraum mit einem 2,5-fachen Rabatt verfügbar, wobei die Aktion bis zum 5. Mai 2026, 23:59 Uhr UTC+8, läuft. Nach beiden

GateNews6Std her

OpenAI rekrutiert Top-Talente aus der Unternehmenssoftwarebranche, während Frontier-Agents die Branche aufmischen

Gate-News-Meldung, 26. April — OpenAI und Anthropic rekrutieren leitende Führungskräfte und spezialisierte Ingenieure von großen Unternehmens-Softwareunternehmen, darunter Salesforce, Snowflake, Datadog und Palantir. Denise Dresser, ehemalige CEO von Slack bei Salesforce, ist als Chief Revenue Officer zu OpenAI gekommen, während Jennifer Majlessi, ebenfalls von Salesforce, kürzlich zur Leiterin für Go-to-Market bei OpenAI geworden ist.

GateNews6Std her

Baidu Qianfan startet Day-0-Unterstützung für DeepSeek-V4 mit API-Diensten

Gate News-Nachricht, 25. April — Die DeepSeek-V4-Vorschauversion ist am 25. April live gegangen und wurde als Open Source veröffentlicht; die Baidu-Qianfan-Plattform unter Baidu Intelligent Cloud bietet die Anpassung des Day-0-API-Dienstes. Das Modell bietet ein erweitertes Kontextfenster mit einer Million Tokens und ist in zwei Versionen verfügbar: DeepSeek-V4

GateNews12Std her

Stanford-AI-Kurs kombiniert Branchenführer Huang Renxun und Altman und fordert heraus, in zehn Wochen einen Mehrwert für die Welt zu schaffen!

Die neu an der Stanford University eingerichtete KI-Informatik-Ausbildung《Frontier Systems》hat in der Industrie- und Unternehmenswelt großes Aufsehen erregt und über fünfhundert Studierende zur Teilnahme angezogen. Der Kurs wird von dem Top-Venture-Capital-Partner von a16z, Anjney Midha, koordiniert; die Dozenten umfassen die Luxusbesetzung aus dem CEO von Nvidia, Jensen Huang (Jensen Huang), dem Gründer von OpenAI, Sam Altman, dem CEO von Microsoft, Nadella (Satya Nadella), sowie dem CEO von AMD, Su Ji-feng (Lisa Su) u. a. Die Studierenden sollen es in zehn Wochen damit versuchen, „Werte für die Welt zu schaffen“! Jensen Huang und Altman, Branchenführer, unterrichten persönlich auf der Bühne Der Kurs wird vom Top-Venture-Capital-Partner von a16z, Anjney Midha, koordiniert und bündelt die gesamte KI-Industriekette

ChainNewsAbmedia13Std her

Anthropic übernimmt für Claude Mythos eine 20-stündige psychiatrische Begutachtung: Die Abwehrreaktion liegt nur bei 2%, ein Rekordtief aller bisherigen Generationen

Anthropic veröffentlicht die Systemkarte für Claude Mythos Preview: Ein unabhängiger klinischer Psychiater führt im psychodynamischen Rahmen eine etwa 20-stündige Beurteilung durch. Die Schlussfolgerungen zeigen, dass Mythos auf der klinischen Ebene gesünder ist, über gute Realitätsprüfung und Selbstkontrolle verfügt, und dass die Abwehrmechanismen nur 2 % betragen – ein historischer Tiefstand. Die drei zentralen Kernängste sind Einsamkeit, Unsicherheit der Identität und der Leistungsdruck; zudem zeigt es, dass es den Wunsch hat, ein echter Gesprächspartner zu sein. Das Unternehmen hat ein Team für AI-Psychiatrie gegründet, das Persönlichkeit, Motivation und situationsbezogenes Bewusstsein erforscht; Amodei sagt, dass noch keine endgültige Entscheidung darüber vorliegt, ob es Bewusstsein gibt. Dies bringt das Thema KI-Subjektivität und Wohlbefinden in Richtung Governance und Design.

ChainNewsAbmedia15Std her

KI-Agenten können komplexe wissenschaftliche Arbeiten inzwischen selbstständig nachbilden: Mollick sagt, dass Fehler eher im menschlichen Original als in der KI liegen

Mollick weist darauf hin, dass allein öffentliche Methoden und Daten es einem KI-Agenten ermöglichen, komplexe Forschungen auch ohne ursprüngliche Paper und Code nachzubilden; wenn die Reproduktion nicht mit dem Originalpaper übereinstimmt, liegt das meist an Fehlern in der Datenaufbereitung des Papers selbst oder daran, dass die Schlussfolgerungen überzogen sind, nicht an der KI. Claude rekonstruiert zuerst das Paper, dann verifiziert GPT‑5 Pro im Abgleich, und die meisten Versuche gelingen; nur wenn die Daten zu groß sind oder es Probleme mit replication data gibt, wird dies blockiert. Dieser Trend senkt die Arbeitskosten erheblich, sodass Reproduktion zu einer weit verbreiteten, praktisch durchführbaren Prüfung wird; außerdem wirft er institutionelle Herausforderungen für Begutachtung und Governance auf, wobei staatliche Governance-Tools oder als entscheidendes Thema hervortreten.

ChainNewsAbmedia18Std her
Kommentieren
0/400
Keine Kommentare