Claude Fable 5 verzeichnet Leistungseinbrüche bei Benchmarks – aber der Sicherheitsklassifizierer, nicht das Modell, wird für Routing-Fehler verantwortlich gemacht.

Laut BridgeBench AI und Arena.AI führte die Wiedereinsetzung von Claude Fable 5 am 1. Juli zu widersprüchlichen Benchmark-Ergebnissen. BridgeBench berichtete, dass die Debugging-Werte von 86,2 auf 25,9 einbrachen, aber Daten zeigten, dass neun von zwölf Aufgaben von Anthropics neuem Sicherheitsklassifikator an Opus 4,8 umgeleitet wurden, anstatt Fable 5 selbst zu erreichen. Inzwischen ergaben Tausende von menschlichen Präferenzstimmen von Arena.AI, dass die Leistung von Fable 5 in den meisten Kategorien weitgehend stabil oder verbessert war, wenn das Modell tatsächlich Anfragen bearbeitete, mit einem Anstieg der Dokumentenleistung um 34 Elo-Punkte und der Experten-Text um 25 Punkte.

Der Unterschied ist wichtig: Allgemeine Nutzer in den Bereichen kreatives Schreiben, Recherche und Textanalyse werden kaum einen Unterschied bemerken, während Entwickler, die an Code-Reparatur und Debugging arbeiten, mit ständigem Fallback-Routing konfrontiert sind. Anthropic räumte ein, dass die neuen Klassifikatoren ein zu weites Netz bei der Blockierung von exploit-bezogenen Eingabeaufforderungen werfen, und sagte, dass im Laufe der Zeit Verfeinerungen kommen werden, gab jedoch keinen Zeitplan an.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare