Ant-Ingenieur reverse-engineered Claude Code-Quellcode: Auto Mode vierschichtiges Entscheidungs-Pipeline und Sicherheitsklassifizierungsmechanismus enthüllt

BlockBeatNews

Laut 1M AI News Monitoring hat Ingenieur der Ant Group, Entwickler des Frontend-Frameworks Umi.js, Chen Cheng, den Quellcode von Claude Code 2.1.81 rückentwickelt und vollständig rekonstruiert, was nach Drücken des Auto-Modus passiert. Die zentrale Erkenntnis: Jeder Tool-Aufruf durchläuft eine vierstufige Entscheidungs-Pipeline. Nur wenn die ersten drei Stufen keine Entscheidung treffen können, wird ein unabhängiger KI-Klassifikator für Sicherheitsprüfungen aufgerufen.

Die vier Stufen sind: Erste Stufe prüft vorhandene Berechtigungsregeln, bei Treffer erfolgt direkte Freigabe; Zweite Stufe simuliert den acceptEdits-Modus (also die Berechtigung zum Bearbeiten von Dateien). Wenn die Prüfung in diesem Modus besteht, ist das Risiko gering, und der Klassifikator wird übersprungen; Dritte Stufe prüft die Whitelist für Lese-Tools (Read, Grep, Glob, LSP, WebSearch usw.), die keine Zustände ändern und unbedingte Freigabe erhalten; Wenn alle drei Stufen nicht greifen, erfolgt die vierte Stufe, bei der eine API-Anfrage an Claude Sonnet für eine Sicherheitsklassifikation gesendet wird.

Wichtige Design-Details des Klassifikators: Es wird stets Sonnet statt Opus verwendet, um Kosten und Latenz abzuwägen; die Temperatur ist auf 0 gesetzt, um deterministische Ausgaben zu gewährleisten; der Klassifikator wird als „Sicherheitsüberwacher autonomer KI-Programmieragenten“ definiert, der drei Risikokategorien schützt (Prompt-Injection, Reichweiten-Ausbreitung, unbeabsichtigter Schaden); die Nutzerkonfigurationsdatei CLAUDE.md wird in den Klassifikator-Kontext injiziert, um die Nutzerabsicht zu beurteilen.

Die Blockierungsregeln decken über 22 Kategorien ab, darunter Force Push, direkte Pushs auf den Main-Branch, Herunterladen und Ausführen externer Codes, Produktionsbereitstellung, Datenlecks, Selbstmodifikation der Berechtigungen, Erstellung von Remote-Code-Execution-Exploits, Credential-Leaks usw. Freigaben sind für 7 Kategorien erlaubt: Hardcoded Test-Keys, lokale Dateimanipulation im Arbeitsverzeichnis, reine GET-Anfragen, Installation deklarierter Abhängigkeiten, offizielle Toolchain-Installationen, Lesen von Konfigurations-Credentials und Senden an Zielanbieter, Push auf den aktuellen Branch.

Es gibt auch eine sogenannte „Fangmechanismus“-Regel: Nach drei aufeinanderfolgenden Ablehnungen oder insgesamt 20 Ablehnungen wird das System auf manuelle Bestätigung umgeschaltet; im Headless-Modus wird der Agent direkt abgebrochen. Wenn der Klassifikator nicht verfügbar ist, steuert ein Feature-Flag, ob „fail-closed“ (direktes Ablehnen) oder „fail-open“ (Downgrade auf manuelle Bestätigung) gilt.

Im Auto-Modus gibt es zudem eine feine Frequenzkontrolle für die Eingabe von Verhalten-Trigger-Wörtern: Alle 5 Dialogrunden erfolgt eine Injection; innerhalb dieser 5-Injektionszyklen ist die erste eine vollständige Version (ca. 800 Wörter, enthält Anweisungen wie „sofort ausführen, Unterbrechungen minimieren, Handlungen sind besser als Pläne“), die restlichen vier sind eine verkürzte Version, um ein Gleichgewicht zwischen Kontextbelegung und Verhaltensstabilität zu wahren.

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Kommentieren
0/400
Keine Kommentare