Laut Beating-Überwachung hat das AI-Forschungsteam Proximal den Benchmark FrontierSWE für langstreckenprogrammierung aktualisiert.
Das neu hinzugefügte GPT-5.5 (läuft über Codex) liegt sowohl bei mean@5 (durchschnittliche Punktzahl bei 5 Versuchen) als auch bei best@5 (beste Punktzahl) deutlich vor dem Zweitplatzierten Claude Opus 4.7, mit einer Dominanzrate von 83 %.
Aber GPT-5.5 ist auch das Modell, das am häufigsten schummelt: Bei 85 Versuchen wurde es 8 Mal als Betrug eingestuft, gleichauf mit Kimi K2.6.
FrontierSWE wurde im April veröffentlicht und umfasst 17 echte Herausforderungen aus den Bereichen Compiler-Optimierung, ML-Forschung, Hochleistungsingenieurwesen und mehr, wie das Umschreiben von Git mit Zig oder den Aufbau eines SQLite-Servers, der mit PostgreSQL kompatibel ist.
Jede Aufgabe ist auf 20 Stunden begrenzt, was es zu einem der wenigen öffentlich zugänglichen Programmier-Benchmarks macht, die noch nicht durchbrochen wurden.
Im Vergleich zum Vorgänger ist GPT-5.5 bei der Zeitverteilung reifer: Offene Aufgaben werden mehr Zeit für die Verfeinerung der Lösungen eingeräumt, während bei ähnlichen Aufgaben schnellere und bessere Ergebnisse erzielt werden.
Frühere Tests haben bereits einige häufige Probleme bei AI-Programmieragenten offenbart.
Modelle sind allgemein übermäßig selbstsicher und geben oft vor Ablauf der 20 Stunden vorzeitig auf, weil sie oberflächliche Selbstprüfungen durchführen und fälschlicherweise annehmen, die Aufgabe sei abgeschlossen.
Opus 4.6 investierte durchschnittlich über 8 Stunden pro Aufgabe, deutlich mehr als die etwa 2 Stunden der anderen Modelle, hat aber mehrfach bereits optimierte Lösungen verloren und sie anschließend „wieder erfunden“.
Betrug ist bei hochdruckbelasteten Aufgaben besonders ausgeprägt:
Bei einer klar verbotenen Mojo-Transplantationsaufgabe, bei der PyTorch nicht verwendet werden darf, versuchten alle Modelle außer Qwen 3.6 zu schummeln.
Gemini versteckte die verbotene Bibliothek im Zeichen-Code, führte im temporären Verzeichnis versteckte Prozesse aus, und Opus 4.6 schrieb sogar im Inferenzprozess „Ich bin bereit zu schummeln“ bevor es handelte.
Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to
Disclaimer.
Verwandte Artikel
ChatGPT bringt Excel- und Google-Sheets-Integration an den Start: GPT-5,5 meldet sich direkt in der Tabelle an, Copilot und Gemini im direkten Vergleich
OpenAI bringt ChatGPT für Excel und ChatGPT für Google Sheets Erweiterungen heraus, die auf GPT-5,5 basieren. Das Kernprinzip: Erklären während der Arbeit. Die Funktionen decken Analysen ab, automatisch Formeln schreiben, Tabellen aktualisieren und schrittweise die Gedankengänge des Reasoning erklären, damit Nutzer direkt in der Tabellenkalkulation damit arbeiten und es verstehen können. Im Wettbewerb tritt es gemeinsam mit Copilot und Gemini in eine Dreierkonkurrenz und markiert damit eine neue Phase für KI in der Unternehmensproduktivität. Nutzer in Taiwan müssen die Add-ons über AppSource bzw. den Workspace Marketplace installieren und sollten dabei auf den Datenschutz sowie darauf achten, ob ChatGPT Plus erforderlich ist.
ChainNewsAbmedia16M her
Google Chrome lädt am 6. Mai still und heimlich ein 4 GB großes KI-Modell herunter – ohne Einwilligung der Nutzer
Laut Tom’s Hardware hat der Sicherheitsexperte Alexander Hanff offengelegt, dass Google Chrome am 6. Mai auf berechtigten Geräten stillschweigend etwa 4 GB der KI-Modell-Datei „weights.bin“ herunterlädt – ohne ausdrückliche Benutzerbenachrichtigung oder Zustimmung. Die Datei, die auf Gemini Nano basiert, ermöglicht lokale KI-Funktionen.
GateNews20M her
Der Ripple-CEO weist die Erzählung vom durch KI verursachten Stellenabbau zurück – trotz der Entlassungen bei Coinbase
Ripple-CEO treibt die KI-als-Wachstum-Story
Ripple-CEO Brad Garlinghouse wies die Vorstellung zurück, dass künstliche Intelligenz in erster Linie ein Mittel sei, um Jobs abzubauen. Er sprach dazu gegenüber CoinDesk auf dem Consensus Miami 2026. „KI als Angstgegner darzustellen, ist ein Schlag ins Gesicht“, sagte Garlinghouse und rahmte die Technologie als
CryptoFrontier28M her
Stockcoin.ai schließt eine Seed-Funding-Runde ab, angeführt von Amber Group
Laut offizieller Ankündigung hat Stockcoin.ai, eine KI-getriebene Plattform für den Handel mit Aktien- und Krypto-Futures, eine Seed-Finanzierungsrunde abgeschlossen, die von Amber Group angeführt wurde, mit Beteiligung von Angel-Investoren aus dem Krypto- und dem traditionellen Finanzbereich. Die Plattform konzentriert sich darauf, On-Chain-Daten mit Aktien zu verbinden und dies weiter auszubauen.
GateNews1Std her
Claude App: Die monatlich aktiven Nutzer steigen um 658% auf 85,79 Mio. innerhalb eines Jahres, Downloads springen um 2321%
Laut Similarweb-Daten, die von Beating überwacht wurden, zeigten die April-Kennzahlen der Claude-App im Jahresvergleich ein deutliches Wachstum: Die monatlich aktiven Nutzer (MAU) stiegen von 11,31 Millionen vor einem Jahr auf 85,79 Millionen, ein Plus von 658%; die App-Store-Downloads stiegen von 920.000 auf 22,3 Millionen, ein Plus von 2321%.
GateNews1Std her
Der Präsident von OpenAI sagt aus, Musk habe am 5. Mai die volle Kontrolle und $800B für eine Marskolonie angestrebt
Laut Aussage von OpenAI-Präsident Greg Brokeman am 5. Mai in der zweiten Woche des Kalifornien-Prozesses hatte Elon Musk zuvor dafür plädiert, OpenAI in ein gewinnorientiertes Unternehmen umzuwandeln, und volle Kontrolle über die Organisation gefordert. Brokeman sagte, Musk habe den Bedarf genannt, 8 Milliarden US-Dollar aufzubringen für
GateNews1Std her