IplanRIO hat am 13. Juni „Rio 3.5 Open 397B“ veröffentlicht und es als von einer Regierung entwickeltes Frontier-Model für KI vermarktet, dessen Benchmark-Werte etablierte Modelle sogar übertreffen sollen – darunter Qwen 3.7 Plus. Nur wenige Tage nach dem Release veröffentlichte das KI-Unternehmen Nex eine mathematische Beweisführung, wonach das Modell eine direkte Gewichts-Mischung im Verhältnis 0,6 Nex / 0,4 Qwen ist. Die Kollinearitätsmessungen lägen bei 0,993 über alle 60 Schichten, bei einem stabilen Mischverhältnis von α ≈ 0,571. IplanRIO aktualisierte daraufhin die Modell-Card, um Nex anzurechnen, entfernte die Benchmark-Behauptungen und führte das Problem auf ein „falsches Upload“ einer Basis-Version zurück, die gemergt wurde, statt auf ein finales, distilliertes Modell. Der Streit dreht sich um Bewertungs- und Zurechnungsstandards in der Open-Source-KI-Entwicklung: Zwar ist das Aufbauen auf bestehenden Open-Weight-Modellen gängige Praxis, jedoch ist eine ausdrückliche Nennung aller Quellmodelle unter Lizenzbedingungen wie Apache 2.0 und MIT erforderlich.
IplanRIO aus Rio de Janeiro hat am 13. Juni Rio 3.5 veröffentlicht. Die städtische IT-Behörde beschrieb es als Modell der „Frontier“-Klasse mit 397 Milliarden Parametern und einer permissiven Open-Source-Lizenz, entwickelt von der Kommunalregierung. Die Veröffentlichung fiel mit dem Eröffnungsspiel der Fußball-Weltmeisterschaft in Brasilien zusammen, und Kommentare zum Modell verbreiteten sich schnell von Brasilien hin zu internationalen Zielgruppen.
Die ursprüngliche Modell-Card beschrieb Rio 3.5 als Post-Train von Qwen 3.5 397B, dem Open-Base-Modell von Alibaba, mit einer hinzugefügten Reasoning-Schicht namens SwiReasoning. Die gemeldeten Entwicklungskosten beliefen sich auf R$500.000, ungefähr 100.000 US-Dollar. Die Architektur nutzt Mixture-of-Experts und aktiviert pro Token etwa 17 Milliarden der 397 Milliarden Parameter. Das Modell unterstützt Vision und Text, verarbeitet über ein Dutzend Sprachen und wird unter einer MIT-Lizenz ausgeliefert.
SwiReasoning ist ein Inferenz-Framework ohne Training, das zwischen zwei Modi umschaltet. Wenn das Modell bei einem nächsten Wort sicher ist – also bei geringer Entropie in der Wahrscheinlichkeitsverteilung – „reasoned“ es in Klartext. Wenn es unsicher ist, wechselt es zu latentem Reasoning in verborgenen internen Zuständen, ohne Tokens auszugeben.
Die selbst berichteten Benchmark-Werte umfassten Terminal-Bench 2.1 mit 70,8%, womit Qwen 3.7 Plus (70,3%) und DeepSeek v4 Pro (67,9%) übertroffen wurden. Auf IMOAnswerBench erzielte Rio 3.5 89,5%. Bei HLE – „Humanity's Last Exam“ – kam Rio 3.5 auf 36,5%, vor Qwen 3.7 Plus mit 34,7%. Der Bürgermeister von Rio de Janeiro, Eduardo Cavaliere, postete zur Veröffentlichung auf X und sagte: „Ein Open-AI-Modell, das in Rio trainiert und in den letzten Jahren öffentlich finanziert wurde von [der Gemeinde Rio], hat gerade alle anderen Modelle übertroffen.“
Nex-AGI, ein Open-Source-KI-Bündnis mit Sitz in Shanghai, postete auf X ein paar Tage nach der Veröffentlichung. Die Analyse erklärte: „Das Rio-3.5-Modell hat diese Woche das Internet gebrochen. Der Twist? Es ist im Wesentlichen unser Open-Source-Modell Nex N2 Pro, nur mit einem anderen Hut.“ Nex analysierte die Gewichte und meldete die Formel: Rio 3.5 ≈ 0,6 × Nex N2 Pro + 0,4 × Qwen 3.5. Darauf folgten ein Verifikations-Skript und ein vollständiger GitHub-Report.
Die Evidenz umfasste sowohl verhaltensbezogene als auch mathematische Komponenten. Nex entfernte den hartkodierten System-Prompt „You are Rio“ aus dem bereitgestellten Modell und stellte 120 Identitätsfragen. Ohne den Prompt berichtet Nex, dass das Modell sich „Nex, from Nex-AGI“ 79,2% der Zeit selbst identifizierte und „Rio“ 0% der Zeit. Das Modell recitierte die spezifische Backstory von Nex wortwörtlich und nannte dabei das „Shanghai Innovation Institute“ sowie ein „large-model ecosystem alliance“.
Mathematisch misst Nex die Kollinearität über alle 60 Schichten. Das Ergebnis lag bei 0,993. Das Mischverhältnis lag konstant bei α ≈ 0,571 und blieb bis auf drei Dezimalstellen stabil. Nex erklärte: „Jedes Gewichtstensor in Rio ist – auf Tausender-Scheiben an Standardabweichungen – exakt der gleiche 0,6/0,4-Mix aus Nex und Qwen – über alle 60 Schichten und jede Komponente des Netzwerks hinweg. Es gibt keine unschuldige Erklärung.“
Nex N2 Pro, das Tage vor Rio 3.5 veröffentlicht wurde, erzielt 75,3% auf Terminal-Bench 2.1 – höher als die 70,8% von Rio. Auf GDPval, einem Benchmark zur Wirtschaftsprognose, liegt Nex bei 1.585 gegenüber 1.533 von Rio.
IplanRIO aktualisierte die Hugging Face Modell-Card. Die Benchmark-Tabelle wurde entfernt und die Zurechnung geändert. Das aktualisierte Readme lautet: „Das Modell wurde erstellt, indem nex-agi/Nex-N2-Pro und Qwen/Qwen3.5-397B-A17B gemergt wurden, vorangestellt durch On-Policy Distillation von einem stärkeren Modell. Wir haben ein falsches Upload in der vorherigen Version entdeckt, bei dem die gemergte Basis-Version hochgeladen wurde, statt des finalen distillierten Modells. Wir entschuldigen uns für die Verwirrung und bitten vielmals um Entschuldigung.“
Weitere öffentliche Aussagen von IplanRIO wurden nicht veröffentlicht. Nex wird nun in der Modell-Card angerechnet. Die Erklärung zum „falschen Upload“ besagt, dass die beabsichtigte Veröffentlichung eine distillierte Version der gemergten Basis war – nicht der rohe Merge selbst. On-Policy-Distillation bedeutet: Ein stärkeres Teacher-Modell erzeugt Outputs, während das Student-Modell auf diesen Outputs trainiert und anschließend eigene Ausgaben generiert.
IplanRIO erklärte, es arbeite daran, das korrigierte, distillierte Modell hochzuladen – mit vollständiger Zurechnung an der passenden Stelle.
Modell-Merging ist rechtlich durch die beteiligten Lizenzen gedeckt. Nex N2 Pro ist Apache 2.0 und erlaubt Nutzung, Modifikation und Redistribution unter Anrechnung. Qwen 3.5 ist offen lizenziert. Der Knackpunkt lag darin, die Ausgabe als unabhängig entwickeltes Werk darzustellen, ohne alle Quellmodelle zu benennen.
Tech-Kommentator Rafael Quintanilha merkte an, dass, da Nex N2 Pro auf Qwen basiert, das Team möglicherweise die zugrunde liegende Architektur gutgeschrieben habe und es dabei belassen. Er wies darauf hin, dass das Modell während eines Weltmeisterschaftsspiels viral ging: „nicht unbedingt ‚bereit für den öffentlichen Konsum‘.“ Entwickler Lucas Montano erklärte, dass „das Mergen zweier ~400B-class Modelle und danach das Anwenden von policy distillation nicht trivial ist“, räumte aber zugleich sowohl einen technischen Fehler als auch ein Kommunikationsversagen ein.
KI-Forscher Diego Ambrosio bemerkte, dass die ursprüngliche Launch-Beschreibung Rio 3.5 als Ergebnis von „autonomous post-training and proprietary fine-tuning“ darstellte – womit ursprüngliche Forschung suggeriert wurde, nicht ein Merge.
Nex schrieb auf X: „Wir sind erfreut, dass die Stadt Rio unsere Arbeit genutzt hat, um SOTA-Performance zu erreichen. Aber in der Open-Source-Welt ist Attribution wichtig.“
Was hat IplanRIO am 13. Juni veröffentlicht?
IplanRIO veröffentlichte Rio 3.5 Open 397B am 13. Juni, beschrieben als von der Regierung gebautes Frontier-KI-Modell mit 397 Milliarden Parametern, einer Mixture-of-Experts-Architektur und Benchmark-Werten inklusive 70,8% auf Terminal-Bench 2.1, 89,5% auf IMOAnswerBench und 36,5% auf HLE. Das Modell wurde unter einer MIT-Lizenz veröffentlicht, bei gemeldeten Entwicklungskosten von R$500.000.
Was zeigte NEXs mathematische Analyse über Rio 3.5?
Nex veröffentlichte einen mathematischen Beweis, wonach Rio 3.5 ein direkter Gewichts-Merge mit der Formel ist: Rio 3.5 ≈ 0,6 × Nex N2 Pro + 0,4 × Qwen 3.5. Die Analyse misst Kollinearität bei 0,993 über alle 60 Schichten bei einem stabilen Mischverhältnis von α ≈ 0,571. Identity-Tests zeigten, dass sich das Modell selbst als „Nex, from Nex-AGI“ 79,2% der Zeit und als „Rio“ 0% der Zeit identifizierte, wenn der hartkodierte System-Prompt entfernt wurde.
Wie hat IplanRIO auf Nex’ Ergebnisse reagiert?
IplanRIO aktualisierte die Hugging Face Modell-Card, um Nex anzurechnen, entfernte die Benchmark-Behauptungen und erklärte: „Wir haben ein falsches Upload in der vorherigen Version entdeckt, bei dem die gemergte Basis-Version hochgeladen wurde, statt des finalen distillierten Modells.“ Die aktualisierte Card beschreibt das Modell als „erstellt via einem Merge von nex-agi/Nex-N2-Pro und Qwen/Qwen3.5-397B-A17B, vorangestellt durch On-Policy Distillation von einem stärkeren Modell.“ IplanRIO erklärte, es arbeite daran, das korrigierte distillierte Modell mit vollständiger Zurechnung hochzuladen.
Related News
IREN erwirbt die in Spanien ansässige Nostrum Group für 490 MW Leistung für KI-Datencenter
AMD übertrifft $900B im Marktwert, während Ryzen AI Halo Nvidias DGX herausfordert
KI-Führungskräfte debattieren Modell-Differenzierung und Chinas Chance für verkörperte Intelligenz auf der Zhiyuan-Konferenz
ChatGPT Pro liefert in einem Semianalyse-Abo-Test einen KI-Wert von 14.000 US-Dollar
Bittensor steigt um 16% nach einer Abschaltungsanordnung für das KI-Modell von Anthropic