Google DeepMind AI-Co-Mathematiker erreicht 47,9 % bei FrontierMath Tier 4, schlägt GPT-5.5 Pro, löst 3 zuvor unlösbare Probleme

Google DeepMind hat „AI Co-Mathematician“ veröffentlicht, einen Multi-Agenten-Mathematik-Forschungsassistenten, der auf dem FrontierMath-Tier-4-Benchmark 47,9% Genauigkeit erreicht und damit den bisherigen Rekord von GPT-5,5 Pro von 39,6% vom 9. Mai übertrifft. Das System löste 23 von 48 Aufgaben, darunter 3, die alle vorherigen Modelle nicht lösen konnten. Die auf Gemini 3,1 Pro basierende Architektur nutzt ein hierarchisches Design: Ein Projekt-Koordinator-Agent verteilt Aufgaben an Sub-Agenten, die Literaturabruf, Programmierung und Schlussfolgern übernehmen; mehrere Reviewer-Agenten validieren Beweise, bevor sie eingereicht werden.

Epoch AI führte Blindtests durch, sodass das DeepMind-Team die Aufgaben nicht sehen konnte, wobei jede Frage bis zu 48 Stunden Rechenzeit erhielt. In einer realen Anwendung nutzte der Mathematiker Marc Lackenby das System, um eine offene Vermutung aus dem Kourovka-Notizbuch zu klären, womit sein praktischer Forschungswert belegt wurde. Das System steht derzeit einer begrenzten Zahl von Mathematikern im Betatest zur Verfügung.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare