Die US-KI-Startup Arcee veröffentlicht das Open-Source-Reasoning-Modell Trinity-Large-Thinking und erzielt 91,9 Punkte auf dem Agent-Fähigkeits-Benchmark PinchBench, nur hinter Opus 4.6 mit 93,3. Auf dem Tau2-Airline-Agenten-Aufgaben-Benchmark holt es zudem mit 88,0 den höchsten Wert unter allen Vergleichsmodellen. Das Modell verwendet eine 400B-Sparse-Mixture-of-Experts-Architektur, der API-Preis beträgt $0,90/1 Mio. Token für die Ausgabe, etwa 96% günstiger als Opus 4.6, und die Gewichte können per Apache-2.0-Lizenz als Open-Source heruntergeladen werden. Bericht von 動區動趨整理.
(Vorgeschichte: OpenRouter-Analyse von 100 Billionen Token-Research Papers: Wofür nutzt die Menschheit eigentlich KI, Aufstieg chinesischer Modelle und die Geheimnisse der Nutzerbindung)
(Zusatz zum Hintergrund: Claude Opus 4.6 ist da: Es schreibt selbst Compiler, macht PPTs und gräbt nebenbei 500 Zero-Day-Schwachstellen aus – und will deine Arbeit auch ausprobieren).
Das US-KI-Startup Arcee, das weniger als 100 Mitarbeiter zählt, liefert im Agent-Fähigkeitsranking eine Punktzahl, die eng an das Flaggschiffmodell von Anthropic heranreicht, und kostet nur 4% dessen.
Arcee ist als Unternehmen bislang nicht gerade der Mainstream-Fokus gewesen, aber ihr neu veröffentlichtes Trinity-Large-Thinking hat sich in mehreren Agent-Szenarien-Benchmarks bereits in die vorderen Ränge geschoben.
PinchBench, entwickelt von Kilo, ist derzeit ein wichtiger Indikator in der Branche, um die Praxisfähigkeiten von Modellen in Agent-Workflows zu messen. Trinity-Large-Thinking erreicht in diesem Test 91,9, während der amtierende Spitzenreiter Opus 4.6 93,3 erzielt; die Differenz liegt nur bei 1,4%.
In einem weiteren Benchmark, der einen realistischen Kundendienst-Use-Case simuliert, dem Tau2-Airline, erzielt es sogar 88,0 – mehr als alle teilnehmenden Vergleichsmodelle. Das bedeutet: In tatsächlichen Agent-Aufgaben, die mehrere Gesprächsrunden, wiederholtes Abfragen von Tools und dergleichen erfordern, verfügt dieses Open-Source-Modell offenbar über ein sehr hohes Niveau.
Der API-Preis von Arcee beträgt $0,90/1 Mio. Token für die Ausgabe; offiziell heißt es, das sei etwa 96% günstiger als Opus 4.6. Für Anwendungsszenarien, in denen Agenten lange Zeit automatisch arbeiten und dabei fortlaufend Token verbrauchen, kann der Kostenvorteil möglicherweise wichtiger sein als die Differenz bei den Modellwerten.
Laut dem offiziellen Arcee-AI-Blog liegt der Schlüssel zu diesem Preis-Leistungs-Verhältnis in der Wahl der Architektur. Trinity-Large-Thinking nutzt ein sparsames MoE-Design (Mixture of Experts). Darin sind 256 Expert-Module enthalten, aber bei der Verarbeitung von jedem Token werden jeweils nur 4 davon aktiviert. Umgerechnet bedeutet das: Das riesige 400B-Modell trägt in der praktischen Inferenz nur die Rechenlast von 13B, und die Ausführungseffizienz liegt ungefähr 2–3-mal höher als bei dichten Modellen im gleichen Größenordnungsbereich.
Im Vergleich zum Vorgänger-Preview, das Ende Januar dieses Jahres veröffentlicht wurde, ist das größte Upgrade das Hinzufügen einer Inferenz-Thought-Chain.
Preview macht nur Instruction-Finetuning. Die Thinking-Version wird vor der Antwort erst „nachdenken“, was die Stabilität bei mehrstufigen Tool-Aufrufen sowie die Kohärenz über längere Kontexte deutlich verbessert. Arcee sagt selbst ganz direkt: Dieses Modell wurde so entworfen, dass es in langen Agent-Iterationsschleifen nicht zusammenbricht.
Das komplette Basismodell wurde mit 20 Millionen US-Dollar und in 33 Tagen Training fertiggestellt. Das nachgelagerte Finetuning der Thinking-Version erforderte nochmals 9 Monate Feinschliff.
Arcee-CEO Lucas Atkins schrieb in seinem Veröffentlichungsbeitrag: „Dorthin zu kommen, erforderte schwierige technische Arbeit, harte Entscheidungen… Das hat niemand gemacht. Sie haben immer weiter gedrückt.“
Natürlich bedeutet Spezialisierung auf Agenten auch Abstriche. Bei allgemeinen Reasoning-Benchmarks ist das Abschneiden von Trinity-Large-Thinking nicht so beeindruckend. GPQA-D erreicht 76,3; Kimi K2.5 ist 86,9, Opus 4.6 ist 89,2 – die Differenzen liegen jeweils bei 10 bzw. 13 Prozentpunkten. Bei MMLU-Pro mit 83,4 liegt es ebenfalls auf dem letzten Platz unter den Vergleichsmodellen.
Arcee scheint jedoch nicht vorhaben, sich in diese Richtung „hart“ einzureihen. Offiziell heißt es: „Trinity-Large-Thinking ist in vielen Dimensionen das stärkste Open-Source-Modell außerhalb Chinas“, und sie stellen klar, dass ihre Gegner nicht Opus oder GPT sind, sondern das chinesische Open-Source-Lager wie DeepSeek, Kimi usw.
Trinity-Large-Thinking ist bereits zusammen mit OpenRouter gelistet; in den ersten 5 Tagen kann es in OpenClaw kostenlos genutzt werden. Auch das Vorgänger-Preview wird weiterhin kostenlos bereitgestellt.
Wenn man über das vorige Preview spricht: Seit seiner Veröffentlichung Ende Januar wurden auf der OpenRouter-Plattform insgesamt über 3,37 Billionen Token verarbeitet. Laut den Statistiken in OpenClaw ist es das Open-Source-Modell mit dem höchsten Nutzerverbrauch in den USA und weltweit Rang vier. Für ein Startup von kleinerer Größe belegt diese Akzeptanz bereits, dass es günstig und gut nutzbar ist – die Marktnachfrage ist eindeutig vorhanden.
Die Modellgewichte sind unter Apache 2.0 auf Hugging Face öffentlich, jeder kann sie herunterladen, modifizieren und für den kommerziellen Einsatz bereitstellen.