Fable 5 scheitert bei allen schwierigsten Aufgaben im UC Berkeley ALE-Test und kostet 4-12x mehr als die Rivalen

Laut UC Berkeley RDI zeigen die diese Woche veröffentlichten Ergebnisse der neuesten Agents' Last Exam (ALE)-Bewertung eine Erfolgsquote von 0% bei den schwierigsten Aufgaben, die anhaltendes logisches Denken und tiefe Expertise erfordern, über alle getesteten KI-Agenten hinweg, einschließlich des neu veröffentlichten Fable 5. Bei den API-Kosten pro Aufgabe berechnete Fable 5 15,70 US-Dollar – 4-mal höher als GPT-5.5 mit 3,80 US-Dollar und 12-mal höher als Composer 2.5 mit 1,33 US-Dollar. Die Bewertung umfasste 55 professionelle Bereiche mit über 1.500 durch Experten verifizierten Aufgaben und stellte fest, dass Agenten am häufigsten scheitern, indem sie zu früh Erfolg erklären, ohne Ergebnisse zu validieren.
Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare