O sistema de memórias de IA MemPalace, que afirma ter sido desenvolvido com a participação da actriz Milla Jovovich, prometeu testes com nota máxima e tornou-se rapidamente viral, mas foi alvo de críticas por parte da comunidade, que acusam o teste de alegada batota e de indução em erro dos dados. Testes em condições reais revelaram que os resultados foram exagerados e que há muitos erros; a equipa já reconheceu as falhas e está a trabalhar na respetiva correção.

Milla Jovovich cria um “palácio de memórias” de IA e gera atenção no exterior

Ontem (4/7), houve uma grande notícia no mundo da IA: a actriz de Hollywood Milla Jovovich (conhecida por Resident Evil e O Quinto Elemento), em conjunto com o programador Ben Sigman, utilizou Claude Code para ajudar no desenvolvimento do sistema aberto de memória de IA “MemPalace”.

Por um breve momento, espalhou-se amplamente a ideia de “uma superestrela de Hollywood a fazer um projeto perfeito com nota máxima”; até hoje, o MemPalace também já ultrapassou mais de 20k estrelas no GitHub, mas muito rapidamente suscitou dúvidas entre a comunidade de desenvolvimento: há mesmo substância ou é apenas hype?

Antes de mais, vejamos qual foi a motivação por detrás do surgimento do MemPalace. A documentação oficial afirma que o objetivo é resolver a limitação de que, atualmente, os utilizadores dos sistemas de IA e o conteúdo das conversas com a IA, bem como os processos de decisão e as discussões sobre a arquitetura, normalmente desaparecem depois do fim das sessões de trabalho, fazendo com que meses de esforço se percam, cair para zero.

Para resolver este problema, o MemPalace utiliza uma arquitetura espacial para armazenar as memórias, classificando claramente a informação em asas que representam pessoas ou projetos, bem como em estruturas de diferentes níveis, como corredores, salas e gavetas, preservando o texto original das conversas para pesquisa semântica posterior.

A equipa de desenvolvimento afirma que o MemPalace obteve 100% no critério de avaliação de memória de longo prazo LongMemEval, e que alcançou 96,6% de precisão sem chamar quaisquer APIs externas, além de conseguir ser executado totalmente no dispositivo local, sem necessidade de subscrição de serviços cloud, e com um sistema de dialeto AAAK que se afirma atingir uma compressão sem perdas 30x.

Fonte da imagem: GitHub A estrela do cinema americano Milla Jovovich cria um palácio de memórias de IA, gerando atenção no exterior

Colegas e a comunidade levantam dúvidas em conjunto; métodos de teste e falhas na promoção

No entanto, a alegada pontuação máxima do MemPalace no LongMemEval chamou rapidamente a atenção e gerou suspeitas por parte de colegas do setor.

A PenfieldLabs, que também desenvolve sistemas de memórias de IA, apontou que a afirmação de que o MemPalace obteve nota máxima no conjunto de dados LoCoMo é matematicamente impossível, porque as respostas padrão desse conjunto de dados já incluem 99 erros.

A PenfieldLabs analisou e concluiu que a pontuação de 100% do MemPalace resulta do facto de o número de recuperações ter sido definido para 50 vezes, mas o conjunto de dados de teste tem apenas 32 níveis máximos de etapas de diálogo; isto significa que o sistema contorna diretamente a fase de recuperação e entrega todos os dados ao modelo de IA para leitura.

Quanto ao resultado de 100% do LongMemEval, foi descoberto que a equipa de desenvolvimento estava a lidar com 3 problemas específicos de três que se concentram em erros na fase de desenvolvimento, tendo escrito código de correção dedicado, o que levanta suspeitas de batota no conjunto de teste.

Fonte da imagem: Reddit A PenfieldLabs, da comunidade de colegas, aponta que a alegação do MemPalace de obter nota máxima no conjunto de dados LoCoMo é matematicamente impossível

Utilizadores do GitHub testam na prática; há uma componente de indução em erro na avaliação de referência

O utilizador do GitHub hugooconnor comentou após testar em condições reais: quando o MemPalace afirma ter até 96,6% de precisão de recuperação, na prática não usa de todo a arquitetura do palácio de memórias promovida pelo MemPalace. hugooconnor afirma que os testes deles apenas chamaram a funcionalidade predefinida da base de dados subjacente ChromaDB, sem qualquer lógica de classificação envolvendo asas, salas ou gavetas enfatizadas no projeto.

Após testar, o hugooconnor descobriu que, quando o sistema realmente ativa a lógica de classificação exclusiva destes “palácios de memórias”, o desempenho de recuperação piora. Por exemplo, no modo de salas, a precisão desce para 89,4%; e depois de ativar a tecnologia de compressão AAAK, a precisão cai ainda mais para 84,2%, ambas inferiores ao desempenho do repositório de base de dados predefinido.

hugooconnor também criticou a metodologia de teste: no ambiente de testes do MemPalace, o intervalo de recuperação de cada problema é deliberadamente reduzido para cerca de 50 etapas de diálogo; procurar respostas em bases de amostras tão pequenas torna o processo demasiado simples.

Se o intervalo for alargado para mais de 19.000 etapas de diálogo em cenários reais, a precisão da pesquisa tradicional por palavras-chave desce drasticamente para 30%, mostrando que o modo de teste atual do MemPalace está a ocultar o verdadeiro desafio da pesquisa.

Fonte da imagem: GitHub Utilizador do GitHub testa na prática; há uma componente de indução em erro na avaliação de referência do MemPalace

Ao mesmo tempo, embora a equipa de desenvolvimento já tenha publicado uma declaração de correção, reconhecendo que a tecnologia AAAK foi de facto validada como compressão com perdas e prometendo corrigir a documentação e o desenho do sistema de acordo com críticas rigorosas da comunidade, o documento principal de descrição do projeto continua a manter várias afirmações exageradas não corrigidas. Incluem-se alegações de compressão sem perdas 30x e melhoria de 34% na recuperação, e as tabelas comparativas com outros concorrentes também não apresentam totalmente quaisquer fontes.

O código-fonte do MemPalace enfrenta vários bugs

Com o número crescente de programadores a descarregar para testar, há agora muitos relatórios de bugs sobre o código-fonte do MemPalace na plataforma GitHub.

O utilizador cktang88 enumerou várias falhas graves, incluindo que o comando de compressão não consegue funcionar e faz com que o sistema falhe/colapse, erros na lógica de contagem de palavras do resumo, e que os dados estatísticos da “escavação” de salas não são precisos; além disso, o servidor carrega toda a informação interpretativa na memória sempre que é feita uma chamada, causando sérios problemas de consumo de recursos.

Outros problemas apontados incluem o facto de o sistema escrever à força os nomes dos familiares do programador no ficheiro de configuração predefinido e de existir um limite máximo forçado de exibição de 10k registos ao consultar o estado.

Para estes problemas, a comunidade open source já começou a corrigir ativamente. O utilizador adv3nt3 submeteu várias* solicitações de correção***, incluindo a correção dos dados estatísticos da escavação, a remoção dos nomes de familiares predefinidos e o adiamento do tempo de inicialização do gráfico de conhecimento.** A equipa de desenvolvimento também reconheceu posteriormente estes erros e está a resolver gradualmente os problemas de código através da colaboração da comunidade.

Vibe Coding da Milla Jovovich é fixe; o método de marketing não é

Relativamente a este projeto MemPalace, um utilizador do Hacker News chamado darkhanakh chegou a uma conclusão: o MemPalace dá a sensação de OpenClaw, ou seja, manipular artificialmente os resultados do teste de benchmark para parecer imaculadamente perfeito e, em seguida, embalá-lo como uma espécie de grande avanço para fazer marketing.

Ele considera que, embora a tecnologia de base do MemPalace possa mesmo ser interessante, perante este tipo de falhas nos métodos de teste, e ainda assim apostar na divulgação de “o maior resultado público de sempre”, não é muito apropriado. “Mas, quanto a a Milla Jovovich estar a brincar com Vibe Coding, eu acho que ainda assim é bastante fixe.”

Leitura adicional:
IA a escrever código corre mal! App “A Teia do Fim” de produto com validade em loja gera problemas de segurança em casa com GPS inteiro nu a correr

Ver fonte

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Roblox lança software de IA para desafiar Unity e Epic Games

Ferramentas e apps de IA

De acordo com a Bloomberg, a Roblox está lançando um novo software de IA para competir com a Unity Technologies e a Epic Games, cujos motores dominam o desenvolvimento de jogos com grandes orçamentos. O CEO Dave Baszucki afirmou que a ferramenta tem como objetivo ajudar os criadores a construir jogos multiplayer com gráficos fotorrealistas de forma mais fácil, impulsionada por ar

GateNews30m atrás

Marinha dos EUA assina contrato de quase US$ 100 milhões de IA com a Domino Data Lab para detecção de minas no Estreito de Ormuz

Ferramentas e apps de IA

De acordo com a Agência de Notícias Xinhua, o Comando de Sistemas de Guerra de Informação da Marinha dos EUA assinou recentemente um contrato com a empresa de IA Domino Data Lab, com sede em San Francisco, para adquirir e implantar soluções de software de aprendizado de máquina. O contrato, avaliado em quase US$ 100 milhões se for totalmente executado, tem como objetivo a

GateNews2h atrás

XAI Grok lança vozes personalizadas: clonagem de 2 minutos e verificação de identidade em duas etapas

Ferramentas e apps de IA

xAI lança Grok Custom Voices: grava cerca de 1 minuto de áudio no console e, em até 2 minutos, gera um modelo de voz personalizado utilizável para a API de TTS e Voice Agent. Em paralelo, lança Grok 4.3 e a Voice Library. Para evitar clonagem, adota autenticação em duas etapas: primeiro, a pessoa lê uma frase de verificação e, em seguida, o sistema compara o speaker embedding para garantir que apenas o mesmo indivíduo possa gerar a voz. A Voice Library consolida o gerenciamento de vozes feitas sob medida e de vozes pré-construídas, com 80+ tipos e 28 idiomas, com expansão prevista no futuro.

ChainNewsAbmedia4h atrás

OpenAI Codex versão desktop ganha recurso de “animal de estimação”: 3 estados de prompt, incubação com base no idioma de uso

Ferramentas e apps de IA

A versão de desktop do OpenAI Codex lançou recentemente a funcionalidade “Pets”, permitindo que desenvolvedores acompanhem em tempo real o status das tarefas do Codex durante a codificação por meio de um personagem animado em forma de pop-up. De acordo com a documentação oficial da OpenAI, o overlay de pets alterna com base no status atual do Codex em 3

ChainNewsAbmedia5h atrás

MoonPay Lança o Cartão MoonAgents, uma Mastercard Virtual para Agentes de IA, na sexta-feira

Parcerias e ecossistema Agente de IA Ferramentas e apps de IA

De acordo com a The Block, a MoonPay lançou a MoonAgents Card, um cartão de débito virtual Mastercard, na sexta-feira. O cartão foi projetado tanto para agentes de IA quanto para usuários, convertendo stablecoins em moeda fiduciária no momento do pagamento e permitindo gastos em qualquer comerciante online global que aceite Mastercard. O cartão i

GateNews16h atrás

Análise do GEPA do Berkeley: a IA aprende novas tarefas sem atualizar pesos, com 35 vezes menos custo de treinamento do que o RL

Ferramentas e apps de IA

GEPA é um novo método de treinamento de IA proposto pela equipe da UC Berkeley: não atualiza os pesos, não exige GPU e usa a reflexão para fazer o LLM ler registros completos das tarefas e reescrever os prompts, em vez de apenas fornecer feedback por pontuação. Em seis tarefas, a média de vitória contra GRPO foi de 6%, com máximo de 20%; os rollouts de treinamento foram reduzidos em 35 vezes. Com integração ao DSPy, o Full Program Adapter melhora significativamente o trabalho em matemática e fluxos de trabalho multimodais, com 93% de precisão. O código é de código aberto, e os autores incluem Matei Zaharia, entre outros.

ChainNewsAbmedia05-02 05:48

Comentário

0/400

Sem comentários