Claude Fable 5 zeigt widersprüchliche Benchmark-Ergebnisse nach Wiedereinsetzung am 1. Juli

Claude Fable 5 kehrte am 1. Juli in den Dienst zurück, was zu widersprüchlichen Leistungsbewertungen durch zwei KI-Benchmarking-Plattformen führte. BridgeBench meldete einen Zusammenbruch der Debugging-Bewertung von 86,2 auf 25,9, während Arena.AI feststellte, dass die Leistung durch Tausende von blinden Präferenzstimmen von Menschen weitgehend unverändert blieb. Die Abweichung beruht laut am 2. Juli veröffentlichten Analysen auf dem neuen Sicherheitsklassifikator von Anthropic, der die meisten Programmieraufgaben an Claude Opus 4.8 weiterleitet, und nicht auf einem tatsächlichen Rückgang der Modellfähigkeiten. Der Klassifikator wurde als Bedingung für die Wiedereinsetzung eingesetzt, nachdem Amazon-Forscher im Juni eine Jailbreak-Technik demonstriert hatten, was ein Eingreifen der US-Regierung aus Gründen der nationalen Sicherheit auslöste.

BridgeBench verzeichnet starke Bewertungsrückgänge in allen Programmierkategorien

BridgeMind führte am Tag der Rückkehr die gesamte Programmier-Suite gegen die Version vom 1. Juli von Fable 5 durch. BridgeBench testet reale Programmieraufgaben in Kategorien wie Debugging, Refactoring und Halluzinationsresistenz, bewertet von 0–100 danach, wie gut das Modell jede Kategorie abschließt. Debugging fiel von 86,2 auf 25,9, Refactoring von 73,6 auf 38,4 und Halluzinationsresistenz von 75,9 auf 61,7.

Von 12 TypeScript-Debugging-Aufgaben erreichten nur drei tatsächlich Fable 5. Die restlichen neun wurden von Anthropics neuem Sicherheitsklassifikator abgefangen und an Claude Opus 4.8 weitergeleitet. BridgeBench bewertet jeden Fallback mit null, weil das Modell, das antwortete, nicht das evaluierte war. Der Klassifikator wurde trainiert, um die von Amazon gemeldete Jailbreak-Technik zu blockieren – eine, die Fable 5 dazu brachte, Software-Sicherheitslücken zu identifizieren und zu demonstrieren. Debugging von TypeScript sieht für den Klassifikator genug nach Sicherheitsarbeit aus, dass der Fallback ständig ausgelöst wird.

Arena.AI zeigt durch menschliche Abstimmung stabile Leistung in den meisten Kategorien

Arena.AI betrachtete dieselbe Frage durch eine andere Linse. Die Plattform sammelt Tausende von blinden Präferenzstimmen von Menschen in mehreren Kategorien – Text, Vision, Dokument, Code und Agent – und ordnet Modelle mittels Elo-Wertung ein. Wenn zwei Modelle anonym gegeneinander antreten und Menschen den Gewinner wählen, spiegelt die Punktzahl die tatsächliche wahrgenommene Qualität wider, nicht die Infrastruktur-Routing.

Der Vorher-Nachher-Vergleich zeigte, dass Fable 5 weitgehend standhielt. Frontend-Code fiel von 1.650 auf 1.623 Elo – ein Unterschied, den Arena als innerhalb des Konfidenzintervalls liegend bezeichnete, während die Daten weiter anwachsen. Die Dokumentleistung verbesserte sich um 34 Punkte. Expertentexte stiegen um 25. Kreatives Schreiben legte leicht um 9 zu. Die Kategorien, die sanken – Programmierung um -18, schwierige Aufforderungen um -3 – sind genau die, in denen der Klassifikator am wahrscheinlichsten die Aufforderung abfängt, bevor Fable antworten kann.

Auswirkungen auf Benutzer variieren je nach Aufgabenkategorie

Allgemeine Benutzer, die kreatives Schreiben, Dokumentenanalyse, Forschung und Experten-Textabfragen durchführen, werden wahrscheinlich kaum oder keinen Unterschied bemerken. Das sind die Kategorien, in denen Arena.AI flache oder verbesserte Leistung zeigt. Autoren, Forscher und Analysten erhalten das erwartete Fable 5.

Jeder, der in sicherheitsnahem Umfeld arbeitet – Programmierung der Speicherverwaltung, alles, was Wörter wie Schwachstelle, Exploit, Hook oder sogar Fix berührt – wird regelmäßig auf den Fallback stoßen. Die Lücke zwischen BridgeBenchs Zusammenbruch und Arenas Stabilität beruht auf dem Aufgabentyp. BridgeBench belädt seine Suite genau mit der Art von Code-Reparatur- und Debugging-Aufforderungen, die den neuen Klassifikator auslösen. Arenas menschliche Wähler fragen eine viel breitere Mischung von Dingen, und die meisten davon sehen für eine Sicherheitsschicht nicht wie Exploit-Code aus.

Anthropic räumt falsch positive Ergebnisse ein, ohne Zeitplan für Verfeinerung

Anthropic hat gesagt, dass die Klassifikatoren mit der Zeit besser werden, und räumt ein, dass sie derzeit ein zu weites Netz auswerfen. Das ursprüngliche Verbot kam, nachdem Amazon-Forscher eine Technik gefunden hatten, um Fable dazu zu bringen, Software-Sicherheitslücken zu identifizieren und zu demonstrieren – und die US-Regierung betrachtete dies als nationale Sicherheitsbedrohung. Der Fix bestand darin, den Klassifikator konservativ genug zu machen, um das und alles, was dazu gehört, abzufangen, und ihn später herunterzutunen. Anthropic hat kein Zieldatum genannt, wann das passieren wird.

FAQ

Warum fiel die Debugging-Bewertung von Claude Fable 5 auf BridgeBench von 86,2 auf 25,9?
Der Sicherheitsklassifikator leitete neun von zwölf TypeScript-Debugging-Aufgaben an Claude Opus 4.8 statt an Fable 5 weiter. BridgeBench bewertet jeden Fallback mit null, weil das evaluierte Modell die Aufgabe nicht bearbeitet hat, was den starken Bewertungsabfall verursacht, obwohl sich die tatsächlichen Fähigkeiten von Fable 5 nicht geändert haben.

Was stellte Arena.AI zur Leistung von Fable 5 nach der Wiedereinsetzung am 1. Juli fest?
Arena.AI sammelte Tausende von blinden Präferenzstimmen von Menschen und stellte fest, dass die Leistung von Fable 5 im Vergleich zur Juni-Version größtenteils gleich blieb. Die Dokumentleistung verbesserte sich um 34 Punkte und Expertentexte um 25 Punkte, während der Frontend-Code von 1.650 auf 1.623 Elo fiel – ein Unterschied innerhalb des Konfidenzintervalls, während die Daten weiter anwachsen.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare