Das von Milla Jovovich entwickelte KI-Erinnerungssystem MemPalace beansprucht, bei Tests eine Vollpunktzahl erreicht zu haben und wurde dadurch überaus beliebt. Doch die Community hat es schnell an den Pranger gestellt: Der Test soll angeblich betrogen und die Daten irreführend dargestellt worden sein. In der Nachprüfung zeigt sich, dass die Wirkung übertrieben wird und es zahlreiche Fehler gibt. Das Team hat die Mängel inzwischen eingeräumt und arbeitet an der Behebung.

Milla Jovovich baut ein KI-Erinnerungspalast auf und sorgt für viel Aufmerksamkeit

Gestern (4/7) gab es in der KI-Community eine große Nachricht: Die Hollywood-Schauspielerin Milla Jovovich, bekannt aus „Resident Evil“ und „Das fünfte Element“, arbeitet zusammen mit dem Entwickler Ben Sigman und unterstützt die Entwicklung mit Claude Code an dem Open-Source-KI-Erinnerungssystem „MemPalace“.

Kurz darauf verbreitete sich die Behauptung „Hollywood-Star überquert die Grenzen und liefert ein Projekt mit Vollpunktzahl“. MemPalace hat bis heute auf GitHub über 20k Sterne erhalten, doch schon bald wurde die Entwickler-Community misstrauisch: Ist da wirklich Substanz dahinter – oder ist das nur eine Inszenierung?

Zuerst einmal die Motivation hinter der Entstehung von MemPalace: Laut offizieller Dokumentation soll damit ein Problem gelöst werden, bei dem Inhalte aus Gesprächen mit KI, Entscheidungsprozesse und Architektur-Diskussionen nach Abschluss einer Arbeitssitzung meist verschwinden. Dadurch gehen mehrere Monate Arbeit „Auf Null setzen“.

Um dieses Problem zu lösen, setzt MemPalace auf eine räumliche Architektur zur Speicherung von Erinnerungen. Informationen werden klar in Flügelbereiche für bestimmte Personen oder Projekte sowie in Strukturen auf verschiedenen Ebenen wie Korridore, Räume und Schubladen eingeordnet. So bleibt der ursprüngliche Wortlaut der Unterhaltung für eine spätere semantische Suche erhalten.

Das Entwicklungsteam behauptet, dass MemPalace in der langfristigen Gedächtnis-Bewertungsgrundlage LongMemEval eine 100%-Perfomance erzielt hat und zudem ohne Aufruf irgendeiner externen API eine Genauigkeit von 96,6% erreicht. Außerdem könne es vollständig lokal laufen, ohne dass man Cloud-Dienste abonnieren müsse. Dazu wird ein AAAK-Dialekt-System mitgeliefert, das angeblich bis zu 30-fache verlustfreie Kompression ermöglicht.

Bildquelle: GitHub Die Hollywood-Schauspielerin Milla Jovovich baut einen KI-Erinnerungspalast, was viel Aufmerksamkeit erregt

Kollegen und Community stellen gemeinsam in Frage, Testmethoden und Werbung mit Mängeln

Doch die angeblich mit LongMemEval erzielte Vollpunktzahl hat schon bald Kritik von Kollegen ausgelöst.

PenfieldLabs, das ebenfalls KI-Erinnerungssysteme entwickelt, weist darauf hin, dass MemPalace angeblich in dem Datensatz LoCoMo eine Vollpunktzahl erreicht hat – mathematisch sei das unmöglich. Denn die Referenzantworten dieses Datensatzes enthalten selbst bereits 99 Fehler.

PenfieldLabs hat analysiert, dass die 100%-Bilanz von MemPalace daher kommt, dass die Anzahl der Abrufe auf 50 gesetzt wurde. Allerdings hat die oberste Stufe der Dialogdaten in den Tests nur 32 Abrufe, was bedeutet, dass das System die Abrufphase direkt umgeht und stattdessen alle Daten dem KI-Modell zur Lektüre übergibt.

Im Hinblick auf die 100%-Leistung bei LongMemEval wurde festgestellt, dass das Entwicklungsteam auf drei bestimmte Probleme fokussiert war, bei denen es beim Testschwerpunkt gehäuft zu Fehlern kam. Dafür habe es maßgeschneiderte Reparaturcodes geschrieben, was den Verdacht auf Betrug beim Testset aufkommen lässt.

Bildquelle: Reddit PenfieldLabs weist darauf hin, dass MemPalace angeblich im Datensatz LoCoMo eine Vollpunktzahl erreicht – was mathematisch nicht möglich ist

GitHub-Nutzer testen es selbst: Der Benchmark-Test enthält irreführende Bestandteile

GitHub-Nutzer hugooconnor kommentiert nach eigener Nachprüfung: MemPalace beanspruche eine Abruf-Genauigkeit von bis zu 96,6%. In Wahrheit habe man jedoch das von MemPalace beworbene Erinnerungspalast-Framework überhaupt nicht verwendet. hugooconnor sagt, ihre Tests bestünden schlicht darin, die Standardfunktion der zugrunde liegenden Datenbank ChromaDB aufzurufen; es gäbe keinerlei Bezug zu der im Projekt betonten Logik zur Einteilung in Flügelbereiche, Räume oder Schubladen.

Nach dem Test habe hugooconnor festgestellt: Wenn das System tatsächlich die speziellen Klassifizierungslogiken dieser Erinnerungspaläste aktiviert, verschlechtert sich die Abrufsleistung. Beim Raum-Modus sinkt die Genauigkeit auf 89,4%; und nachdem die AAAK-Kompression aktiviert wurde, fällt die Genauigkeit sogar weiter auf 84,2%. Beide Werte liegen unter der Leistung der Standarddatenbank.

hugooconnor kritisiert außerdem die Testmethode. Das Testumfeld von MemPalace schränkt die Abruf-Reichweite für jede Aufgabe absichtlich auf etwa 50 Dialog-Phasen ein. In einer so kleinen Testdatenbank Antworten zu suchen, ist zu leicht.

Wenn man den Bereich auf über 19.000 Dialog-Phasen in realistischen Szenarien erweitert, fällt die Genauigkeit der traditionellen Keyword-Suche drastisch auf 30%. Das zeigt, dass die derzeitige Testweise von MemPalace die echten Suchschwierigkeiten verdeckt.

Bildquelle: GitHub GitHub-Nutzer testen selbst: Der Benchmark-Test von MemPalace enthält irreführende Bestandteile

Zwar hat das Entwicklungsteam gleichzeitig bereits eine Berichtigung veröffentlicht und eingeräumt, dass die AAAK-Technik tatsächlich als verlustbehaftete Kompression verifiziert wurde. Außerdem habe man zugesagt, die Dokumente und das Systemdesign entsprechend den strengen Kritiken der Community zu überarbeiten. Doch die Hauptbeschreibung des Projekts enthält weiterhin mehrere unbeantwortete, übertriebene Aussagen: darunter Behauptungen wie 30-fache verlustfreie Kompression und 34% höhere Abrufe. Zudem fehlen bei den Vergleichsgrafiken mit anderen Wettbewerbern völlig Quellenangaben.

MemPalace-Quellcode steht vor mehreren Bugs

Mit immer mehr Downloads für Tests treten inzwischen auf der GitHub-Plattform zahlreiche Bug-Reports zum MemPalace-Quellcode auf.

Nutzer cktang88 listet mehrere schwerwiegende Mängel auf: Dazu gehören, dass der Kompressionsbefehl nicht funktioniert und zum Absturz des Systems führt, Fehler in der Logik zur Berechnung der Zusammenfassungswortanzahl, sowie ungenaue statistische Daten zur „Erkundung der Räume“. Außerdem lädt der Server bei jedem Aufruf alle Interpretationsdaten in den Speicher, was zu massiven Ressourcenverbrauchsproblemen führt.

Zu den weiteren genannten Problemen zählt unter anderem, dass das System die Namen von Familienmitgliedern der Entwickler hart in die Standard-Konfigurationsdatei schreibt. Außerdem gibt es eine erzwungene Anzeige-Grenze von 10k Datensätzen beim Abfragen des Status.

Die Open-Source-Community hat bereits begonnen, diese Probleme aktiv zu beheben. Nutzer adv3nt3 reichte mehrereReparaturanfragen ein, darunter das Korrigieren der Erkundungsstatistiken, das Entfernen der voreingestellten Namen von Familienmitgliedern sowie das Hinauszögern der Initialisierungszeit für das Wissensgraphen-Setup. Das Entwicklungsteam hat später auch diese Fehler eingeräumt und arbeitet über die Zusammenarbeit mit der Community schrittweise daran, die Probleme im Code zu lösen.

Milla Jovovich‘ Vibe Coding ist cool, das Marketing ist es nicht

Für dieses Projekt MemPalace zieht ein Hacker-News-Nutzer darkhanakh ein Fazit: MemPalace vermittelt das Gefühl von OpenClaw – also dass man die Ergebnisse von Benchmark-Tests künstlich manipuliert, damit sie makellos aussehen, und sie dann als irgendeinen großen Durchbruch vermarktet.

Er glaubt, die zugrunde liegende Technologie von MemPalace könnte durchaus interessant sein. Doch wenn die Testmethoden solche Mängel aufweisen und man dann zudem mit „dem öffentlich höchsten Score aller Zeiten“ wirbt, ist das ziemlich unpassend. „Aber, dass Milla Jovovich gerade Vibe Coding spielt, ich finde, das ist trotzdem ziemlich cool.“

Weiterführende Lektüre:
KI schreibt Programme und geht schief! Das App „惜食獵人“ für abgelaufene Ladenware gerät wegen Sicherheitsproblemen in die Schlagzeilen, die GPS-Daten laufen zuhause völlig ungeschützt weiter

View Source

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Verwandte Artikel

MoonPay bringt am Freitag die MoonAgents Card auf den Markt – eine virtuelle Mastercard für KI-Agenten und Nutzer

Partnerships & Ecosystem AI Agent AI Tools & Apps

Laut The Block hat MoonPay am Freitag die MoonAgents Card gelauncht, eine virtuelle Mastercard-Debitkarte für KI-Agenten und Nutzer. Die Karte wandelt Stablecoins an der Verkaufsstelle in Fiat um und kann bei jedem Online-Händler weltweit verwendet werden, der Mastercard akzeptiert. Ausgestellt über Monavate, ein regulierter Zahlungsanbieter

GateNews8Std her

MoonPay bringt am Freitag die MoonAgents Card im Mastercard-Netzwerk auf den Markt

Partnerships & Ecosystem AI Agent AI Tools & Apps

Laut The Block hat MoonPay am Freitag die MoonAgents Card gelauncht – eine virtuelle Mastercard-Debitkarte, die KI-Agents und Nutzer dazu befähigt, Stablecoins direkt von Onchain-Wallets aus auszugeben. Die Karte wird über Monavate ausgegeben, eine regulierte globale Zahlungsplattform und Principal Member von Mastercard, in

GateNews11Std her

Nubank plant für 2026 eine Investition von 8,2 Milliarden US-Dollar in Brasilien und verdoppelt damit die Ausgaben für KI sowie die Kreditexpansion

AI Tools & Apps

Laut Crowdfundinsider kündigte Nubank Pläne an, 2026 8,2 Milliarden US-Dollar in den brasilianischen Markt zu investieren, wodurch sich seine Investition im Vergleich zu zwei Jahren zuvor nahezu verdoppelt. Die Mittel sollen auf KI-gestützte Systeme zur Bonitätsbewertung, digitale Finanzprodukte, die Erweiterung des Teams, die Infrastruktur

GateNews12Std her

MARA Holdings erwirbt Long Ridge Energy für 1,5 Milliarden US-Dollar für ein KI-Datencenter

AI Tools & Apps

MARA Holdings erwirbt Long Ridge Energy in einer Transaktion im Wert von 1,5 Milliarden US-Dollar, um ihre Kapazitäten für KI- und IT-Infrastruktur auszubauen. Der Deal umfasst ein 505-MW-Gaskraftwerk und 1.600 Acres in Ohio und bietet damit über 1 GW Leistungskapazität für den künftigen Ausbau von KI und IT. Transaktionsdetails Der Erwerb

CryptoFrontier17Std her

Coinpost Terminal arbeitet kürzlich mit RootData zusammen, um die Marktintelligenz für japanische Anleger zu verbessern

Partnerships & Ecosystem AI Tools & Apps

Laut ChainCatcher hat Coinpost Terminal, die KI-Plattform unter dem japanischen Krypto-Medienunternehmen Coinpost, kürzlich eine Partnerschaft mit der Web3-Asset-Datenplattform RootData angekündigt. Über die API von RootData wird Coinpost Terminal künftig erweiterte

GateNews18Std her

AequiSolva bringt Sentinel-Stack-AI-Architektur für institutionellen Handel mit digitalen Vermögenswerten am 30. April auf den Markt

Project Progress AI Tools & Apps

Am 30. April gab AequiSolva die Produktionsfreigabe seines Sentinel Stack bekannt, einer KI-integrierten Börsenarchitektur, die für institutionelle Märkte für digitale Vermögenswerte entwickelt wurde. Die Plattform kombiniert deterministische Ausführung, eine KI-gestützte Marktüberwachung zur Wahrung der Integrität vor dem Handel und die Omni-Attest-Engine für

GateNews04-30 18:42

Kommentieren

0/400

Keine Kommentare