LLM Schachturnier beendet: OpenAI o3 gewinnt, xAI Grok 4 hat kein Spiel gewonnen und wurde komplett besiegt.

動區BlockTempo

2025-08-14 07:45:49

XAI4,52%

Das Kaggle AI internationale Schachturnier ist zu Ende gegangen, und das nicht speziell trainierte o3 hat Grok 4 mit 4-0 besiegt und zeigt eine extrem starke Argumentationsfähigkeit. (Zusammenfassung: Musk droht Apple zu verklagen: Monopolverhalten im App Store-Ranking, um Grok absichtlich zu unterdrücken) (Hintergrundinformation: Grok 4 ist jetzt kostenlos nutzbar, Musk xAI tritt direkt gegen GPT-5 an) Kürzlich hat Google-Tochter Kaggle am 14. August die Ergebnisse des “Künstliche Intelligenz Schach-Showturniers” veröffentlicht, bei dem das OpenAI allgemeine große Sprachmodell o3 Grok 4 mit 4:0 besiegt hat, den Titel gewonnen hat und das erste LLM ist, das seinen Gegner ohne spezielle Ausbildung vollständig besiegt hat. An dem Turnier nahmen insgesamt 8 AI-Teams teil, das drei Tage dauerte und im K.-o.-System entschieden wurde. Höhepunkte des Sprachmodellwettbewerbs Laut Berichten von OpenTools.ai erzielte o3 während seines Aufstiegs in drei aufeinanderfolgenden Spielen ein 4:0 Sweep und eliminierte im Halbfinale die eigene leichte Version o4 mini. Im Vergleich dazu führte Grok 4 oft zu Beginn des Spiels, verlor aber am Ende des Turniers mehrfach “seine Stellung” (opferte die am stärksten agierende Dame). Der Schachgroßmeister Hikaru Nakamura bewertete o3 als “sehr fehlerfrei” und bemerkte, dass Grok 4 häufig taktische Selbstzerstörungen aufwies. Der ehemalige Weltmeister Magnus Carlsen beschrieb den Stil von Grok: Es sei, als würde man zusehen, wie ein Kind Schach spielt. Er schätzte Groks Elo bei etwa 800, o3 bei etwa 1200, was weit unter dem Niveau von Spitzenhuman oder spezialisierten Schach-AIs liegt. Elo: Ein professionelles Bewertungssystem (Englisch: Elo rating system), das von dem ungarisch-amerikanischen Physiker Arpad Elo geschaffen wurde, ist eine Methode zur Bewertung des Niveaus verschiedener Wettkampfaktivitäten und wird heute allgemein als Autoritätsstandard zur Bewertung des Wettkampfniveaus anerkannt, und es wird weit verbreitet in Schach, Go, Fußball, Basketball und anderen Sportarten verwendet. Die höchste Elo-Punktzahl im Schach wurde von Magnus Carlsen mit 2882 Punkten erreicht. Allgemeine KI vs. spezialisierte KI Im Vergleich dazu basieren spezialisierte Systeme wie Stockfish auf tiefem Suchen und Bereichsbewertung, die langfristig etwa 3644 Elo erreichen. Allgemeine LLM hingegen lernen durch massive interdisziplinäre Korpora, wobei Schach nur eine Erweiterung der Argumentationsfähigkeit ist. Obwohl o3 Grok 4 besiegen kann, verlor es Anfang des Jahres immer noch gegen Stockfish, was zeigt, dass allgemeine Modelle in Bezug auf Stabilität und tiefes Rechnen im Schachspiel noch Unterschiede aufweisen. Verwandte Berichte: OpenAI setzt auf den großen Gewinn, Son Masayoshi hat sich wieder “aufgerichtet”. Ethereum-Entwickler installiert “bösartige AI-Plugins” und wird gehackt, das Krypto-Wallet wird innerhalb von drei Tagen leergeräumt, zehn Jahre Erfahrung in der Cybersicherheit nützen nichts. a16z neueste Einsichten: Ist der traditionelle E-Commerce tot? AI-native Plattformen definieren das “Einkaufen” neu. Der Artikel “LLM Schachturnier beendet: OpenAI o3 gewinnt, xAI Grok 4 gewinnt kein Spiel und wird vollständig besiegt” wurde zuerst in BlockTempo, dem einflussreichsten Blockchain-Nachrichtenmedium, veröffentlicht.

Original anzeigen

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Kommentieren

0/400

Keine Kommentare