GPT-5.5 kehrt an die Spitze im Codieren zurück, aber OpenAI wechselt Benchmarks, nachdem es gegen Opus 4.7 verloren hat

Gate News Nachricht, 27. April — SemiAnalysis, ein Unternehmen für Halbleiter- und KI-Analysen, veröffentlichte einen vergleichenden Benchmark für Code-Assistenten, darunter GPT-5.5, Claude Opus 4.7 und DeepSeek V4. Die wichtigste Erkenntnis: GPT-5.5 markiert OpenAI’s erste Rückkehr an die Spitze der Coding-Modelle seit sechs Monaten, wobei SemiAnalysis-Ingenieure nun zwischen Codex und Claude Code wechseln, nachdem sie zuvor fast ausschließlich auf Claude gesetzt hatten. GPT-5.5 basiert auf einem neuen Vortrainingsansatz mit dem Codenamen “Spud” und stellt OpenAI’s erste Ausweitung der Vortraining-Skala seit GPT-4.5.

In praktischen Tests zeigte sich eine klare Arbeitsteilung. Claude übernimmt neues Projekt-Planning und die anfängliche Einrichtung, während Codex besonders bei fehlerbehebungen glänzt, die viel Denkaufwand erfordern. Codex zeigt ein stärkeres Verständnis für Datenstrukturen und logisches Denken, hat jedoch Schwierigkeiten, die mehrdeutige Nutzerabsicht abzuleiten. Bei einer einzelnen Dashboard-Aufgabe replizierte Claude automatisch die Layout-Referenzseite, fabrizierte jedoch große Mengen an Daten, während Codex das Layout übersprang, aber deutlich genauere Daten lieferte.

Die Analyse deckt einen Benchmark-Manipulationsaspekt auf: In seinem Februar-Blogbeitrag forderte OpenAI die Branche auf, SWE-bench Pro als neuen Standard für Coding-Benchmarks zu übernehmen. Allerdings wechselte die Ankündigung von GPT-5.5 zu einem neuen Benchmark namens “Expert-SWE.” Der Grund, in den Feinheiten versteckt, ist, dass GPT-5.5 von Opus 4.7 auf SWE-bench Pro übertroffen wurde und deutlich hinter Anthropic’s unveröffentlichtem Mythos (77.8%) zurückfiel.

Bezüglich Opus 4.7 veröffentlichte Anthropic eine Mortem-Analyse eine Woche nach dem Release und erkannte drei Bugs in Claude Code an, die mehrere Wochen lang von März bis April anhielten und nahezu alle Nutzer betrafen. Mehrere Ingenieure hatten zuvor eine Leistungsverschlechterung in Version 4.6 gemeldet, waren jedoch mit der Begründung abgetan worden, es handele sich um subjektive Beobachtungen. Zusätzlich erhöht der neue Tokenizer von Opus 4.7 die Token-Nutzung um bis zu 35%, was Anthropic offen zugab — effektiv eine versteckte Preiserhöhung.

DeepSeek V4 wurde als “mit der Spitze Schritt haltend, aber nicht führend” bewertet und positionierte sich als die kostengünstigste Alternative unter Closed-Source-Modellen. Die Analyse stellte außerdem fest, dass “Claude DeepSeek V4 Pro bei hochschwierigen chinesischen Schreibaufgaben weiterhin übertrifft,” und kommentierte: “Claude gewann gegen das chinesische Modell in dessen eigener Sprache.”

Der Artikel führt ein zentrales Konzept ein: Die Modellpreisgestaltung sollte anhand der “Kosten pro Aufgabe” statt der “Kosten pro Token” bewertet werden. Der Preis von GPT-5.5 ist doppelt so hoch wie der von GPT-5.4 (input $5, output $30 pro Million Tokens), aber es erledigt die gleichen Aufgaben mit weniger Tokens, wodurch die tatsächlichen Kosten nicht notwendigerweise höher sind. Erste SemiAnalysis-Daten zeigen, dass das Input-zu-Output-Verhältnis von Codex bei 80:1 liegt, niedriger als das von Claude Code mit 100:1.

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Verwandte Artikel

R0AR schreitet zum Consensus 2026 PitchFest-Finale vor und verpasst die Top-20 nur knapp

Laut MetaversePost rückte R0AR am 4. Mai in die finale Auswahlrunde von CoinDesk’s Consensus 2026 PitchFest vor und verpasste die Top-20-Startups, die für Live-Präsentationen ausgewählt wurden, nur knapp. Der Web3- und KI-Innovator wurde zusammen mit vielversprechenden Startups weltweit bei einer der Branchen-…

GateNews8M her

Musk fordert vor dem Prozess eine Einigung in Höhe von 150 Milliarden US-Dollar mit OpenAI, Einigungsgespräche scheitern

Laut einer Gerichtsakte wandte sich Elon Musk am 26. April an den OpenAI-Präsidenten Greg Brockman, zwei Tage bevor ihr Prozess in einem Bundesgericht in Oakland begann, um eine Einigung auszuloten. Als Brockman vorschlug, dass beide Parteien ihre Ansprüche fallen lassen, antwortete Musk mit Drohungen und sagte Brockman: „Bis zum Ende

GateNews17M her

Cursor nimmt das 60-Milliarden-US-Dollar-Angebot von SpaceX zur Übernahme an, arbeitet aber nicht mit xAI an Codierungs-Modellen zusammen

Laut The Information hat Cursor ein bedingtes 60 Milliarden US-Dollar Übernahmeangebot von SpaceX angenommen, obwohl die Transaktion noch nicht finalisiert wurde. Das Unternehmen hat derzeit keine Pläne, mit der KI-Einheit von SpaceX, xAI, an der Entwicklung von Codierungsmodellen zusammenzuarbeiten. Stattdessen konzentriert sich Cursor darauf, es zu optimieren

GateNews38M her

Haun Ventures schließt am 4. Mai einen 1-Milliarde-US-Dollar-Fonds ab und verteilt das Kapital zwischen frühen und späten Krypto-Investments

Laut Bloomberg hat Haun Ventures am 4. Mai eine Fundraising-Runde in Höhe von 1 Milliarde US-Dollar abgeschlossen. Dabei wurden 500 Millionen US-Dollar für Early-Stage- und 500 Millionen US-Dollar für Late-Stage-Investitionen bereitgestellt. Der Fonds wird das Kapital in den nächsten zwei bis drei Jahren einsetzen und sich dabei auf Krypto- und Blockchain-Startups konzentrieren, während er ausweitet

GateNews1Std her

OpenAI erhöht $4 Milliarde für ein Joint Venture zur Projektbereitstellung, bewertet auf 10 Milliarden US-Dollar

Laut BlockBeats hat OpenAI am 4. Mai über $4 Milliarden US-Dollar aufgebracht, um ein neues Joint Venture zu gründen, das Unternehmen dabei helfen soll, seine Software für Künstliche Intelligenz zu übernehmen. Das Venture mit dem Namen The Deployment Company wird von 19 Investoren unterstützt, darunter TPG Inc., Brookfield Asset Management,

GateNews2Std her

Warum glauben manche, dass KI die Welt verändern wird, während andere meinen, es werde alles beim Alten bleiben? Karpathys zwei Diagnosen

Karpathy weist darauf hin, dass die kognitive Kluft in der KI aus zwei Diagnosen stammt: 1) Man hat nur kostenlose/alte Modelle verwendet und kann daher die Fähigkeiten modernster agentischer Modelle nicht realistisch abbilden; 2) Verbesserungen zeigen sich vor allem in stark technischen Bereichen und verlaufen zudem asymmetrisch. Dadurch sehen zahlende Nutzer und die breite Leserschaft jeweils unterschiedliche Phänomene, was zu Missverständnissen in parallelen Welten führt. Die Lehre für Leserinnen und Leser in Taiwan ist, dass man durch den praktischen Einsatz modernster Modelle zur Erledigung von Produktionsaufgaben und durch das Überprüfen der Entscheidungsgrundlagen vermeiden kann, von Medien-Mythen in die Irre geführt zu werden.

ChainNewsAbmedia2Std her
Kommentieren
0/400
Keine Kommentare