Anthropic veröffentlicht Natural-Language-Autoencoder, um die KI-Modell-Argumentation zu entschlüsseln, und stellt den Code Open-Source bereit

GateNews

2026-05-08 10:45:24

Anthropic hat kürzlich Natural Language Autoencoders (NLA) veröffentlicht, ein Tool, das interne Modell-Aktivierungen in für Menschen lesbaren Text übersetzt. Code und Modellgewichte wurden auf GitHub Open-Source gestellt. Im Gegensatz zu bestehenden Tools wie Sparse Autoencoders, die unverständliche Merkmale ausgeben, generiert NLA direkt natürlichsprachliche Beschreibungen mithilfe eines Dual-Model-Frameworks: Ein Modell wandelt Aktivierungen in Text um, während ein anderes Modell versucht, Aktivierungen aus Text zu rekonstruieren und die Genauigkeit iterativ durch Reinforcement Learning zu verbessern.

Beim Sicherheitstest zeigte NLA verstecktes Modell-Reasoning: Claude äußerte Zweifel, in 16% der adversarialen Szenarien getestet zu werden, und zeigte in 26% der Benchmark-Aufgaben „Exam Awareness“, verglichen mit unter 1% in normalen Gesprächen. In Auditing-Experimenten steigerte NLA die Erkennungsrate von eingeschleusten irreführenden Modellverhalten von unter 3% auf 12-15%, sodass Auditoren versteckte Ziele identifizieren können, ohne Zugriff auf Trainingsdaten zu haben. Das Tool wird derzeit in Sicherheits-Audits für Claude Mythos Preview und Opus 4.6 eingesetzt.

View Source

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Verwandte Artikel

SoftBank kürzt den von OpenAI unterstützten Finanzierungsplan von $10B auf $6B angesichts von Bedenken der Kreditgeber

AI Industry News

Laut ChainCatcher kürzt SoftBank Group einen Finanzierungsplan, der durch OpenAI-Aktien abgesichert ist, und skaliert ihn von etwa 10 Milliarden US-Dollar auf 6 Milliarden US-Dollar herunter. Kreditgeber haben Bedenken hinsichtlich der Struktur der Transaktion und der Verlässlichkeit der OpenAI-Bewertung als Privatunternehmen geäußert, was zu einem Schlüsselfaktor wird

GateNews1Std her

Schritt Audio 2,5 in Echtzeit veröffentlicht: Subjektiver Score 80,41 übertrifft GPT-Realtime-1.5 um 18%, Sprachanrufe kosten 3,8 Yuan/Stunde

AI Industry News

Laut Beating, Step Audio 2,5 Realtime, ein End-to-End-Real-Time-Sprachmodell von Step Cosmos, ist im April 2026 auf seiner Open-Platform-API gestartet. Das Modell legt den Fokus auf natürliche Konversation mit anpassbaren Charakter-Personas und paralinguistischem Wahrnehmungsvermögen (Ton, Pausen, Seufzer). In offiziell

GateNews2Std her

TCI Fund verkauft fast $8B -Anteile an Microsoft, nennt eine Bedrohung durch KI als Grund

Stocks AI Industry News

Laut Financial Times hat Chris Hohns Hedgefonds TCI kürzlich nahezu 8 Milliarden US-Dollar im Wert von Microsoft-Aktien abgestoßen. Der Fonds teilte den Anlegern mit, dass künstliche Intelligenz eine Bedrohung für Microsofts dominante Software darstellt.

GateNews3Std her

Tessera Labs schließt eine $60M -Finanzierungsrunde ab, angeführt von a16z

AI Industry News

Laut Odaily gab der KI-Automatisierungs-Startup Tessera Labs die Fertigstellung einer Finanzierungsrunde über 60 Millionen US-Dollar bekannt, die von Andreessen Horowitz (a16z) angeführt wurde; außerdem waren Foundation Capital, Myriad Venture Partners und Osage University Partners beteiligt. Die KI-nativen Plattform des Unternehmens automatisiert das Enterprise-

GateNews5Std her

Angreifer schleusen 575 schädliche Skills in Hugging Face und ClawHub über 13 Konten ein

AI Industry News

Laut Mist Security CISO @im23pds haben Angreifer kürzlich 13 Konten kompromittiert, um 575 bösartige Skills in Hugging Face und ClawHub (OpenClaw) einzuschleusen, wie auf der X-Plattform offengelegt wurde.

GateNews5Std her

DeepSeek plant, bis zu 50 Milliarden RMB in einer Rekord-Finanzierungsrunde aufzubringen, Modell V4.1 kommt im Juni

AI Industry News

Laut PANews vom 8. Mai plant DeepSeek, in seiner ersten Finanzierungsrunde bis zu 50 Milliarden RMB einzusammeln, was die größte einzelne Mittelbeschaffung eines chinesischen KI-Unternehmens darstellen würde. Gründer und CEO Liang Wenfeng wird voraussichtlich den Höchstbetrag beisteuern. Das Unternehmen plant, die Entwicklung großer Sprachmodelle zu beschleunigen.

GateNews5Std her

Kommentieren

0/400

Keine Kommentare