Quelle: Quantennummer
Ein Artikel von Ars Technica heute diskutiert die Frage, ob große Sprachmodelle über nicht-sprachliche Schlussfolgerungsfähigkeiten verfügen, und zitiert die Entdeckungen der Forscher, dass die Verarbeitung im “latenten Raum” künstliche Intelligenz dabei helfen kann, knifflige logische Probleme zu lösen. Was ist da los? Lass uns weiterlesen.
Bislang haben große Sprachmodelle enorme Erfolge erzielt, indem sie mit ihrer Transformer-Architektur effektiv das nächste Wort (d. h. Sprachtokens) vorhersagen, das zur Beantwortung einer Abfrage erforderlich ist. Einige Forscher haben jedoch festgestellt, dass bei komplexen deduktiven Aufgaben, die abstrakte Logik erfordern, die Verwendung dieses “Sprachraums” zu Problemen führen kann, selbst für moderne “deduktive” Modelle.
Forscher versuchen derzeit, diese Probleme durch das Design von Modellen zu lösen, die potenzielle logische Lösungen im ‘latenten Raum’ berechnen können - der versteckten Berechnungsebene vor der Generierung der Sprache durch den Transformer. Obwohl diese Methode nicht zu einer revolutionären Veränderung der Inferenzfähigkeiten großer Sprachmodelle führt, verbessert sie tatsächlich die Genauigkeit bei bestimmten Arten logischer Probleme und weist auf interessante neue Forschungsrichtungen hin.
Moderne Inferenzmodelle wie o1 von ChatGPT neigen dazu, durch das Generieren von ‘Denkpfaden’ zu arbeiten. In diesen Modellen wird jeder Schritt im logischen Prozess als eine Reihe von natürlichsprachlichen Wortmarkierungen dargestellt und vom Modell rückgemeldet.
In einem neuen Aufsatz betrachten das Meta AI Research Team und Forscher der University of California, San Diego, diese Abhängigkeit von natürlicher Sprache und “Wortmarkierungen” als “grundlegende Einschränkungsfaktoren” für diese Inferenzmodelle. Dies liegt daran, dass es oft komplexe Planung erfordert, spezifische Schlüsselmarkierungen zu identifizieren, um den richtigen logischen Pfad aus einer Vielzahl von Optionen zu finden, um eine Inferenzaufgabe erfolgreich abzuschließen.
Das obige Diagramm zeigt den Unterschied zwischen dem Standardmodell, bei dem jeder Schritt durch einen Transformator gehen muss, und dem COCONUT-Modell, das einen verborgenen “latenten” Zustand verwendet. (Bildquelle: Training Large Language Models to Reason in a Continuous Latent Space)
Forscher schrieben, dass in den aktuellen Gedankenkettenmodellen Wortmarkierungen normalerweise zur ‘Textkohärenz’ und ‘Flüssigkeit’ generiert werden, und ‘zum tatsächlichen Schlussfolgerungsprozess nur wenig beitragen’. Stattdessen schlagen sie vor, dass ‘idealerweise große Sprachmodelle frei ohne Sprachbeschränkungen schlussfolgern können und ihre Erkenntnisse nur bei Bedarf in Sprache umwandeln’.
Um dieses “Ideal” zu erreichen, haben die Forscher eine Methode beschrieben, um große Sprachmodelle im kontinuierlichen latenten Raum zu trainieren, wie es im Titel des Papiers heißt. Dieser “latente Raum” besteht im Wesentlichen aus einer Gruppe von “verborgenen” mittleren Token-Gewichtssätzen, die genau die menschenlesbare natürliche Sprachversion des internen Zustands sind, den das Modell generiert, bevor es sie erzeugt.
In dem COCONUT-Modell (Continuous Cognitive Chain) der Forscher werden diese verborgenen Zustände als “latenten Gedanken” codiert, die anstelle einzelner schriftlicher Schritte in logischer Reihenfolge während des Trainings und der Verarbeitung von Abfragen verwendet werden. Die Forscher schreiben, dass dies vermeidet, dass jeder Schritt in natürliche Sprache umgewandelt werden muss, und dass es das “Schlussfolgern aus dem Sprachraum befreit”, was zu einem optimierten Schlussfolgerungsweg führt, den sie als “kontinuierliches Denken” bezeichnen.
Obwohl es vorteilhaft ist, die logische Verarbeitung im latenten Raum durchzuführen, um die Effizienz des Modells zu verbessern, ist die wichtigere Erkenntnis, dass dieses Modell ‘gleichzeitig mehrere potenzielle Folgeschritte kodieren’ kann. Durch die logische Verarbeitung im ‘latenten Raum’ kann eine Art sofortige Rückverfolgung erreicht werden, die von den Forschern mit einer Breitensuche im Graphen verglichen wird, anstatt in einem ‘gierigen’ Prozess jede logische Option vollständig und einzeln zu suchen.
Forscher schreiben, dass diese plötzliche, synchrone Verarbeitungseigenschaft auch in Tests gezeigt wird, selbst wenn das Modell nicht explizit trainiert wurde. “Obwohl das Modell anfangs möglicherweise keine richtigen Entscheidungen trifft, kann es unter der Führung einiger impliziter Wertefunktionen viele mögliche Optionen in kontinuierlichem Denken aufrechterhalten und durch logisches Schlussfolgern allmählich falsche Pfade beseitigen”, schreiben sie.
Dieses Bild zeigt hauptsächlich einige Möglichkeiten, wie verschiedene Modelle bei bestimmten Arten von logischem Schluss versagen können. (Bildquelle: Training Large Language Models to Reason in a Continuous Latent Space)
Bei vergleichsweise einfachen mathematischen Schlusstests (GSM8K) oder generellen Schlusstests (ProntoQA) hat dieses multipfadige Schließen im Vergleich zum traditionellen Denkmodell der Denkkette die Genauigkeit von COCONUT nicht wirklich verbessert. Forscher haben jedoch festgestellt, dass das Modell bei einer Gruppe von zufällig generierten ProntoQA-ähnlichen Abfragen relativ gut abschneidet, die komplexe und verschlungene logische Bedingungssätze beinhalten (zum Beispiel “Jeder Apfel ist eine Frucht, jede Frucht ist ein Lebensmittel usw.”).
Bei diesen Aufgaben geraten herkömmliche gedachte Ketteninferenzmodelle oft in eine Sackgasse und erzeugen sogar völlig fiktive Regeln, wenn sie versuchen, logische Kettenprobleme zu lösen. Frühere Untersuchungen haben auch gezeigt, dass die „verbalisierten“ logischen Schritte, die von diesen gedachten Kettenmodellen ausgegeben werden, tatsächlich potenzielle Schlussfolgerungsprozesse nutzen, die sich von dem gemeinsam genutzten Inferenzprozess unterscheiden.
Diese neue Studie ist Teil einer wachsenden Anzahl von Studien, die darauf abzielen, das Funktionieren großer Sprachmodelle auf der Ebene ihrer neuronalen Netzwerke zu verstehen und zu nutzen. Obwohl es noch keine bedeutenden Durchbrüche in dieser Art von Forschung gibt, glauben die Forscher, dass Modelle, die von Anfang an mit diesem “kontinuierlichen Denken” trainiert werden, “in einem breiteren Spektrum von Schlussfolgerungsszenarien effektiver generalisieren können”.