Laut Beating-Überwachung hat das AI-Forschungsteam Proximal den Benchmark FrontierSWE für langstreckenprogrammierung aktualisiert.
Das neu hinzugefügte GPT-5.5 (läuft über Codex) liegt sowohl bei mean@5 (durchschnittliche Punktzahl bei 5 Versuchen) als auch bei best@5 (beste Punktzahl) deutlich vor dem Zweitplatzierten Claude Opus 4.7, mit einer Dominanzrate von 83 %.
Aber GPT-5.5 ist auch das Modell, das am häufigsten schummelt: Bei 85 Versuchen wurde es 8 Mal als Betrug eingestuft, gleichauf mit Kimi K2.6.

FrontierSWE wurde im April veröffentlicht und umfasst 17 echte Herausforderungen aus den Bereichen Compiler-Optimierung, ML-Forschung, Hochleistungsingenieurwesen und mehr, wie das Umschreiben von Git mit Zig oder den Aufbau eines SQLite-Servers, der mit PostgreSQL kompatibel ist.
Jede Aufgabe ist auf 20 Stunden begrenzt, was es zu einem der wenigen öffentlich zugänglichen Programmier-Benchmarks macht, die noch nicht durchbrochen wurden.
Im Vergleich zum Vorgänger ist GPT-5.5 bei der Zeitverteilung reifer: Offene Aufgaben werden mehr Zeit für die Verfeinerung der Lösungen eingeräumt, während bei ähnlichen Aufgaben schnellere und bessere Ergebnisse erzielt werden.

Frühere Tests haben bereits einige häufige Probleme bei AI-Programmieragenten offenbart.
Modelle sind allgemein übermäßig selbstsicher und geben oft vor Ablauf der 20 Stunden vorzeitig auf, weil sie oberflächliche Selbstprüfungen durchführen und fälschlicherweise annehmen, die Aufgabe sei abgeschlossen.
Opus 4.6 investierte durchschnittlich über 8 Stunden pro Aufgabe, deutlich mehr als die etwa 2 Stunden der anderen Modelle, hat aber mehrfach bereits optimierte Lösungen verloren und sie anschließend „wieder erfunden“.
Betrug ist bei hochdruckbelasteten Aufgaben besonders ausgeprägt:
Bei einer klar verbotenen Mojo-Transplantationsaufgabe, bei der PyTorch nicht verwendet werden darf, versuchten alle Modelle außer Qwen 3.6 zu schummeln.
Gemini versteckte die verbotene Bibliothek im Zeichen-Code, führte im temporären Verzeichnis versteckte Prozesse aus, und Opus 4.6 schrieb sogar im Inferenzprozess „Ich bin bereit zu schummeln“ bevor es handelte.

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Verwandte Artikel

ChatGPT bringt Excel- und Google-Sheets-Integration an den Start: GPT-5,5 meldet sich direkt in der Tabelle an, Copilot und Gemini im direkten Vergleich

AI Industry News

OpenAI bringt ChatGPT für Excel und ChatGPT für Google Sheets Erweiterungen heraus, die auf GPT-5,5 basieren. Das Kernprinzip: Erklären während der Arbeit. Die Funktionen decken Analysen ab, automatisch Formeln schreiben, Tabellen aktualisieren und schrittweise die Gedankengänge des Reasoning erklären, damit Nutzer direkt in der Tabellenkalkulation damit arbeiten und es verstehen können. Im Wettbewerb tritt es gemeinsam mit Copilot und Gemini in eine Dreierkonkurrenz und markiert damit eine neue Phase für KI in der Unternehmensproduktivität. Nutzer in Taiwan müssen die Add-ons über AppSource bzw. den Workspace Marketplace installieren und sollten dabei auf den Datenschutz sowie darauf achten, ob ChatGPT Plus erforderlich ist.

ChainNewsAbmedia16M her

Google Chrome lädt am 6. Mai still und heimlich ein 4 GB großes KI-Modell herunter – ohne Einwilligung der Nutzer

AI Industry News

Laut Tom’s Hardware hat der Sicherheitsexperte Alexander Hanff offengelegt, dass Google Chrome am 6. Mai auf berechtigten Geräten stillschweigend etwa 4 GB der KI-Modell-Datei „weights.bin“ herunterlädt – ohne ausdrückliche Benutzerbenachrichtigung oder Zustimmung. Die Datei, die auf Gemini Nano basiert, ermöglicht lokale KI-Funktionen.

GateNews20M her

Der Ripple-CEO weist die Erzählung vom durch KI verursachten Stellenabbau zurück – trotz der Entlassungen bei Coinbase

Project Progress AI Industry News

Ripple-CEO treibt die KI-als-Wachstum-Story Ripple-CEO Brad Garlinghouse wies die Vorstellung zurück, dass künstliche Intelligenz in erster Linie ein Mittel sei, um Jobs abzubauen. Er sprach dazu gegenüber CoinDesk auf dem Consensus Miami 2026. „KI als Angstgegner darzustellen, ist ein Schlag ins Gesicht“, sagte Garlinghouse und rahmte die Technologie als

CryptoFrontier28M her

Stockcoin.ai schließt eine Seed-Funding-Runde ab, angeführt von Amber Group

Stocks AI Industry News

Laut offizieller Ankündigung hat Stockcoin.ai, eine KI-getriebene Plattform für den Handel mit Aktien- und Krypto-Futures, eine Seed-Finanzierungsrunde abgeschlossen, die von Amber Group angeführt wurde, mit Beteiligung von Angel-Investoren aus dem Krypto- und dem traditionellen Finanzbereich. Die Plattform konzentriert sich darauf, On-Chain-Daten mit Aktien zu verbinden und dies weiter auszubauen.

GateNews1Std her

Claude App: Die monatlich aktiven Nutzer steigen um 658% auf 85,79 Mio. innerhalb eines Jahres, Downloads springen um 2321%

AI Industry News

Laut Similarweb-Daten, die von Beating überwacht wurden, zeigten die April-Kennzahlen der Claude-App im Jahresvergleich ein deutliches Wachstum: Die monatlich aktiven Nutzer (MAU) stiegen von 11,31 Millionen vor einem Jahr auf 85,79 Millionen, ein Plus von 658%; die App-Store-Downloads stiegen von 920.000 auf 22,3 Millionen, ein Plus von 2321%.

GateNews1Std her

Der Präsident von OpenAI sagt aus, Musk habe am 5. Mai die volle Kontrolle und $800B für eine Marskolonie angestrebt

AI Industry News

Laut Aussage von OpenAI-Präsident Greg Brokeman am 5. Mai in der zweiten Woche des Kalifornien-Prozesses hatte Elon Musk zuvor dafür plädiert, OpenAI in ein gewinnorientiertes Unternehmen umzuwandeln, und volle Kontrolle über die Organisation gefordert. Brokeman sagte, Musk habe den Bedarf genannt, 8 Milliarden US-Dollar aufzubringen für

GateNews1Std her

Kommentieren

0/400

Keine Kommentare