Laut 1M AI News Monitoring hat Ingenieur der Ant Group, Entwickler des Frontend-Frameworks Umi.js, Chen Cheng, den Quellcode von Claude Code 2.1.81 rückentwickelt und vollständig rekonstruiert, was nach Drücken des Auto-Modus passiert. Die zentrale Erkenntnis: Jeder Tool-Aufruf durchläuft eine vierstufige Entscheidungs-Pipeline. Nur wenn die ersten drei Stufen keine Entscheidung treffen können, wird ein unabhängiger KI-Klassifikator für Sicherheitsprüfungen aufgerufen.
Die vier Stufen sind: Erste Stufe prüft vorhandene Berechtigungsregeln, bei Treffer erfolgt direkte Freigabe; Zweite Stufe simuliert den acceptEdits-Modus (also die Berechtigung zum Bearbeiten von Dateien). Wenn die Prüfung in diesem Modus besteht, ist das Risiko gering, und der Klassifikator wird übersprungen; Dritte Stufe prüft die Whitelist für Lese-Tools (Read, Grep, Glob, LSP, WebSearch usw.), die keine Zustände ändern und unbedingte Freigabe erhalten; Wenn alle drei Stufen nicht greifen, erfolgt die vierte Stufe, bei der eine API-Anfrage an Claude Sonnet für eine Sicherheitsklassifikation gesendet wird.
Wichtige Design-Details des Klassifikators: Es wird stets Sonnet statt Opus verwendet, um Kosten und Latenz abzuwägen; die Temperatur ist auf 0 gesetzt, um deterministische Ausgaben zu gewährleisten; der Klassifikator wird als „Sicherheitsüberwacher autonomer KI-Programmieragenten“ definiert, der drei Risikokategorien schützt (Prompt-Injection, Reichweiten-Ausbreitung, unbeabsichtigter Schaden); die Nutzerkonfigurationsdatei CLAUDE.md wird in den Klassifikator-Kontext injiziert, um die Nutzerabsicht zu beurteilen.
Die Blockierungsregeln decken über 22 Kategorien ab, darunter Force Push, direkte Pushs auf den Main-Branch, Herunterladen und Ausführen externer Codes, Produktionsbereitstellung, Datenlecks, Selbstmodifikation der Berechtigungen, Erstellung von Remote-Code-Execution-Exploits, Credential-Leaks usw. Freigaben sind für 7 Kategorien erlaubt: Hardcoded Test-Keys, lokale Dateimanipulation im Arbeitsverzeichnis, reine GET-Anfragen, Installation deklarierter Abhängigkeiten, offizielle Toolchain-Installationen, Lesen von Konfigurations-Credentials und Senden an Zielanbieter, Push auf den aktuellen Branch.
Es gibt auch eine sogenannte „Fangmechanismus“-Regel: Nach drei aufeinanderfolgenden Ablehnungen oder insgesamt 20 Ablehnungen wird das System auf manuelle Bestätigung umgeschaltet; im Headless-Modus wird der Agent direkt abgebrochen. Wenn der Klassifikator nicht verfügbar ist, steuert ein Feature-Flag, ob „fail-closed“ (direktes Ablehnen) oder „fail-open“ (Downgrade auf manuelle Bestätigung) gilt.
Im Auto-Modus gibt es zudem eine feine Frequenzkontrolle für die Eingabe von Verhalten-Trigger-Wörtern: Alle 5 Dialogrunden erfolgt eine Injection; innerhalb dieser 5-Injektionszyklen ist die erste eine vollständige Version (ca. 800 Wörter, enthält Anweisungen wie „sofort ausführen, Unterbrechungen minimieren, Handlungen sind besser als Pläne“), die restlichen vier sind eine verkürzte Version, um ein Gleichgewicht zwischen Kontextbelegung und Verhaltensstabilität zu wahren.