Li Fei Fei spricht über den nächsten Schritt von LLM: KI muss über "räumliche Intelligenz" verfügen, um die reale Welt zu verstehen. Wie realisiert Marble das?

動區BlockTempo

2025-11-30 10:14:24

Li Feifei, Gründer von World Labs und bekannt als die “Patin der KI”, wurde interviewt, um über die Notwendigkeit zu sprechen, dass KI über Sprache hinausgeht und “räumliche Intelligenz” entwickelt, damit Maschinen die physische 3D-Welt wirklich verstehen und konstruieren können. (Zusammenfassung: a16z Former Partner's Blockbuster Technology Report: How Is AI Eating the World? (Hintergrund hinzugefügt: Bridgewater Dalio: Es ist zu früh, KI-Aktien zu verkaufen!) Denn die “Nadel, die die Blase durchsticht” hat noch nicht gespielt) In einer Zeit, in der groß angelegte Sprachmodelle die Welt erobern, hat Fei-Fei Li, Professor an der Stanford University, bekannt als “Patin der KI”, die nächste Grenze der künstlichen Intelligenz ins Visier genommen: die räumliche Intelligenz. Nach seinem Ausstieg bei Google Cloud gründete Li Feifei das hochkarätige Startup World Labs und brachte das erste Vorzeigeprodukt der Welt, Marble, auf den Markt. In diesem ausführlichen Interview mit Eye on AI erläutert Li Feifei, warum KI nicht nur Wörter verstehen muss, sondern auch die Fähigkeit haben muss, die 3D-Welt zu “sehen”, “wahrzunehmen” und zu “bauen”. Dieses Interview berührt eine Reihe von Kernthemen, darunter: Jenseits der Sprache: Warum kann menschliches Wissen nicht vollständig durch Worte erfasst werden, und KI braucht multimodales Lernen? Technische Entschlüsselung: Wie kann das “RTFM”-Modell von World Labs mit nur einer GPU geometrisch konsistente 3D-Welten erzeugen? Akademische Meinung: Was sind die Gemeinsamkeiten und Unterschiede zwischen der Methodik von Li Feifei und dem Weltmodellkonzept von Yann LeCun, dem leitenden KI-Wissenschaftler von Meta? Ausblick: Wann wird KI die Gesetze der Physik wirklich verstehen und sogar die Kreativität wissenschaftlicher Forschung unter Beweis stellen? Hier ist die vollständige chinesische Übersetzung dieses wunderbaren Gesprächs. Moderator: Ich möchte nicht zu viel Zeit damit verbringen, über Marble zu sprechen – Ihr neues Modell, das eine konsistente und persistente 3D-Welt erzeugt, die den Betrachter durch sie bewegt, obwohl es wirklich großartig ist. Ich möchte mehr darüber erfahren, warum Sie sich auf “Weltmodelle” und “räumliche Intelligenz” konzentrieren? Warum ist das notwendig, um über das Sprachenlernen hinauszugehen? Und wie unterscheidet sich Ihre Methode von der von Yann LeCun? Können Sie zunächst etwas darüber sagen, ob das Weltmodell aus Ihrer Forschung im Bereich Ambient Intelligence abgeleitet ist oder ob es sich um einen parallelen Forschungsstrang handelt? Feifei Li: Die Arbeit an räumlicher Intelligenz, über die ich in den letzten Jahren nachgedacht habe, ist wirklich eine Fortsetzung meiner gesamten Karriere, die sich auf Computer Vision und visuelle Intelligenz konzentriert hat. Ich betone den Begriff “Raum”, weil unsere Technologie so weit fortgeschritten ist, dass ihre Komplexität und Tiefe nicht mehr auf das Betrachten von Bildern oder das Verstehen einfacher Filme beschränkt ist. Sie ist tiefenwahrnehmungsfähig, räumlich und mit Robotik, verkörperter KI und Umwelt-KI verbunden. So gesehen ist es also wirklich eine Fortsetzung meiner Karriere im Bereich Computer Vision und KI. Moderator: Ich habe in diesem Podcast auch eine Weile über die Bedeutung von räumlicher Intelligenz gesprochen. Sprachmodelle lernen von menschlichem Wissen, das in Worten kodiert ist, aber das ist nur ein Bruchteil des menschlichen Wissens. Wie Sie und viele andere hervorgehoben haben, lernen Menschen oft, indem sie ohne Sprache mit der Welt interagieren. Das ist also wichtig, und obwohl die aktuellen LLMs erstaunlich sind, müssen wir, wenn wir über sie hinausgehen wollen, Modelle entwickeln, die die Welt direkter erleben und direkt von ihr lernen. Ihr Ansatz – natürlich ist Marble ein Beispiel dafür – besteht darin, die internen Repräsentationen, die das Modell gelernt hat, zu nehmen und diese Repräsentationen zu verwenden, um eine externe visuelle Realität zu schaffen. LeCuns Ansatz hingegen baut interne Repräsentationen aus direkter Erfahrung oder Videoeingabe auf, so dass das Modell Dinge wie die Gesetze der Bewegungsphysik lernen kann. Gibt es eine parallele Beziehung zwischen den beiden? Ergänzen sich die beiden Ansätze oder überschneiden sie sich? Feifei Li: Zunächst einmal stelle ich mich nicht gegen Yann, denn ich denke, wir befinden uns beide auf dem akademischen Spektrum, das zu räumlicher Intelligenz und Weltmodellen führt. Vielleicht haben Sie meinen langen, kürzlich erschienenen Artikel “Manifest der räumlichen Intelligenz” gelesen, in dem ich es deutlich gemacht habe. Ich denke tatsächlich, dass, wenn wir schließlich ein universelles, allmächtiges Modell der Welt in Betracht ziehen wollen, sowohl eine “implizite Repräsentation” als auch ein gewisses Maß an “expliziter Repräsentation” – insbesondere auf der Output-Ebene – erforderlich sein könnte. Sie spielen jeweils eine andere Rolle. Das aktuelle Weltmodell von World Labs, Marble, gibt z. B. explizit 3D-Darstellungen aus, aber innerhalb des Modells gibt es neben der expliziten Ausgabe auch implizite Darstellungen. Ehrlich gesagt, denke ich, dass wir letztendlich beides brauchen. Was die Eingabemodalitäten betrifft, ja, es ist sehr wichtig, aus dem Film zu lernen. Die ganze Welt ist ein Input, der aus einer großen Anzahl aufeinanderfolgender Frames besteht, aber für einen Agenten oder einfach nur ein Tier ist die Welt nicht nur eine passive Sichtweise. Es umfasst auch Bewegung, Interaktion, taktile Erfahrungen, Geräusche, Gerüche und verkörperte Erfahrungen wie körperliche Kraft und Temperatur. Ich denke also, dass es sehr multimodal ist. Natürlich ist Marble als Modell nur der erste Schritt, aber in unserem Fachartikel, den wir vor einigen Tagen veröffentlicht haben, haben wir deutlich gemacht, dass wir glauben, dass Multimodalität sowohl ein Lernparadigma als auch ein Input-Paradigma ist. Es gab eine Menge akademischer Diskussionen darüber, was auch die frühe Begeisterung in diesem Bereich zeigt. Ich würde also nicht sagen, dass wir die genaue Modellarchitektur und -darstellung vollständig erforscht haben. Moderator: In Ihrem Weltmodell ist der Input hauptsächlich Video, und dann baut das Modell eine interne Repräsentation der Welt auf? Li Feifei: Nicht ganz. Wenn Sie unser Weltmodell Marble erlebt haben, ist sein Input tatsächlich sehr modal. Sie können Nur-Text, einzelne oder mehrere Bilder, Filme verwenden oder ein grobes 3D-Layout wie Quadrate oder Voxel-Voxel eingeben. Es ist also multimodal, und wir werden es im Laufe der Entwicklung weiter vertiefen. Interviewer: Abgesehen davon, dass es ein großartiges Produkt mit vielen Anwendungen ist, ist es Ihr Ziel, ein System zu bauen – wie ich schon sagte, der Input ist ein Film – eines, das aus direkter Erfahrung lernt? Ist es das Lernen durch Video oder andere Modalitäten und nicht durch sekundäre Medien wie Text? Feifei Li: Ja, ich denke, beim Weltmodell geht es darum, etwas über die Welt zu lernen, und die Welt ist sehr multimodal. Ob es sich um eine Maschine oder ein Tier handelt, wir sind multisensorisch. Lernen findet durch Wahrnehmung statt, und Wahrnehmung hat verschiedene Modalitäten. Wörter sind eine dieser Formen. Das ist es auch, was uns von Tieren unterscheidet, denn die meisten Tiere lernen nicht durch komplexe Sprache, aber der Mensch schon. Das heutige KI-Weltmodell lernt jedoch aus einer großen Anzahl von Spracheingaben und anderen Modalitäten, aber es ist nicht nur auf die Sprache als Kanal beschränkt. Moderator: Eine der Einschränkungen von LLM besteht darin, dass die Modellparameter nach dem Training festgelegt sind und das Modell nicht kontinuierlich lernt. Es gibt zwar ein gewisses Maß an Lernen beim Testen von Inferenz, aber ist es das, was Sie in Ihrem Modell der Welt zu lösen versuchen? Denn es liegt auf der Hand, dass das Weltmodell in der Lage sein sollte, kontinuierlich zu lernen, wenn es auf eine neue Umgebung trifft. Li Feifei: Ja…

Original anzeigen

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Kommentieren

0/400

Keine Kommentare