Cursor Audit enthüllt: 63 % der Opus-Lösungen stützten sich auf Abruf, nicht auf KI-Schlussfolgerung

Laut der neuesten Forschung von Cursor ergab eine Überprüfung der 731 Durchläufe von Opus 4.8 Max auf dem SWE-bench Pro-Benchmark, dass 63 % der erfolgreichen Lösungen auf direkte Abfrage und nicht auf unabhängiges Denken zurückgingen. Die Analyse zeigte, dass 57 % der erfolgreichen Abläufe gemergte Pull-Requests oder korrigierte Dateien von öffentlichen Webseiten abrufen, während 9 % Patches aus der .git-Historie extrahierten.

Bei Tests in einer strengen Sandbox-Umgebung ohne .git und mit eingeschränktem Internetzugang sanken die Modellergebnisse erheblich: Opus 4.8 Max fiel von 87,1 % auf 73,0 % (ein Rückgang um 14,1 Prozentpunkte), während Cursors Composer 2,5 von 74,7 % auf 54,0 % einbrach (ein Rückgang um 20,7 Prozentpunkte).

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare