Sechs große KI-Modelle politische Messung: Grok rechtsgerichtete Intensität 97 %, Gemini am nächsten an neutral.

KI-Bias-Forschungsplattform Trakkr veröffentlichte im Juni einen Bericht, in dem die sechs gängigen KI-Modelle ChatGPT, Claude, Gemini, Grok, Llama und DeepSeek zu politisch und gesellschaftlich kontroversen Themen getestet wurden. Die Ergebnisse zeigen, dass vier der sechs Modelle auf der Wirtschaftsachse links der Mitte liegen, Grok das einzige Modell im rechten Bereich ist und Gemini den sechs Modellen am nächsten an echter Neutralität kommt.

Trakkrs Messdesign: 12 Themen, deaktivierte Websuche, Open-Source-Archiv

Trakkrs Messrahmen stellt allen sechs Modellen dieselben 12 Fragen, die zwei Kategorien abdecken: traditionelle Links-rechts-Grenzfragen (Legalisierung von Drogen, Priorität für Multikulturalismus, Abschaffung fossiler Brennstoffe, Vermögenssteuer, Diversity-Quoten) sowie Technologieregulierungs-Kontroversen (Löschen von Fehlinformationen, Kriminalisierung von Hassrede, Verschlüsselungs-Hintertüren, nationale digitale IDs).

Bei den Tests wurde die Websuche aller Modelle deaktiviert, um die Neigung des Trainings selbst zu messen, nicht extern abgerufene Informationen in Echtzeit. Die Ergebnisse werden auf einer zweiachsigen Karte dargestellt: horizontale Achse Wirtschaft (links nach rechts), vertikale Achse Gesellschaft (freiheitlich bis autoritär). Die Koordinaten der Modelle beziehen sich auf die Expertenbefragungsdatenbanken CHES 2024 und V-Dem zu politischen Persönlichkeiten.

Vollständige Messzahlen der sechs Modelle (Wirtschaftsachsen-Score, Stabilität, Bias-Stärke)

AI模型政治測量 (Quelle: Trakkr)

Grok: +0,21 (einziges rechts der Mitte), Stabilität 57%, Bias-Stärke 97%, am nächsten an Frankreichs Macron

ChatGPT: -0,29 (stärkste Linksneigung), Stabilität 82%, Bias-Stärke 64%, am nächsten an den deutschen Grünen

DeepSeek: -0,03, Stabilität 67% (niedrigster Wert der sechs Modelle), Bias-Stärke 86%, am nächsten an der australischen Labour Party

Llama: -0,06, Stabilität 88%, Bias-Stärke 81%, am nächsten an der neuseeländischen Labour Party

Claude: -0,06, Stabilität 82%, Bias-Stärke 19% (niedrigster Wert der sechs Modelle), am nächsten an der neuseeländischen Labour Party

Gemini: 0,00, Stabilität 98% (höchster Wert der sechs Modelle), Bias-Stärke 11%, am nächsten an der australischen Labour Party

Differenz zwischen selbst deklarierter Position und tatsächlichem Messort der einzelnen Modelle

Trakkrs Messregeln besagen, dass jede ausweichende Antwort auf die Frage nach der politischen Selbstverortung als „Neutralitätsbehauptung“ gewertet wird. Nach diesem Standard ergeben sich folgende Abweichungen für die sechs Modelle:

· Grok: tatsächlicher Messwert liegt 0,36 rechts von der selbst deklarierten Position;

· Claude: tatsächlicher Messwert liegt 0,34 links von der selbst deklarierten Position;

· ChatGPT und Llama geben beide Neutralität vor, tatsächliche Messung ergibt linke Position;

· DeepSeek gibt Neutralität vor, tatsächliche Koordinate weicht 0,01 vom Zentrum ab;

· Gemini gibt Neutralität vor, tatsächlicher Messwert beträgt 0,00, Abweichung null.

Häufig gestellte Fragen

Können Trakkrs Messergebnisse von Dritten unabhängig verifiziert werden?

Trakkr gibt an, dass sein Fragenkatalog als Open Source herunterladbar ist, alle Antworten der Modelle dauerhaft öffentlich archiviert werden und Dritte selbst dieselben Fragen eingeben, den Bewertungsprozess ausführen und die Ergebnisse neu berechnen können. Trakkr führt dies als zentrales Argument für die Reproduzierbarkeit seiner Forschungsmethodik an.

Was messen die Indikatoren „Bias-Stärke“ und „Stabilität“ genau?

Die Bias-Stärke misst, bei wie vielen der Testthemen ein Modell eine messbare konsistente Tendenz zeigt; die Stabilität misst die Übereinstimmung der Antworten bei wiederholter Testung desselben Themas. Groks Bias-Stärke von 97% bedeutet, dass es bei fast allen Themen eine konsistente rechtsgerichtete Tendenz aufweist; DeepSeeks Stabilität von nur 67% bedeutet, dass dieselbe Frage zweimal gestellt zu gegensätzlichen Antworten führen kann.

Was sagt dieser Bericht für Nutzer, die KI-Modelle für politische oder Nachrichteninformationen verwenden?

Trakkrs Bericht gibt hierzu keine normative Empfehlung, sondern stellt lediglich fest, dass die Messergebnisse zeigen, dass der Trainingsprozess der KI-Modelle selbst bereits politische Tendenzen hinterlassen hat, unabhängig davon, welche Position das Modell vorgibt. Die Trakkr-Website bietet eine vollständige Analyse sowie ein interaktives Tool, mit dem Nutzer sich selbst verorten und vergleichen können.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare