O sistema de memórias de IA MemPalace, que afirma ter sido desenvolvido com a participação da actriz Milla Jovovich, prometeu testes com nota máxima e tornou-se rapidamente viral, mas foi alvo de críticas por parte da comunidade, que acusam o teste de alegada batota e de indução em erro dos dados. Testes em condições reais revelaram que os resultados foram exagerados e que há muitos erros; a equipa já reconheceu as falhas e está a trabalhar na respetiva correção.

Milla Jovovich cria um “palácio de memórias” de IA e gera atenção no exterior

Ontem (4/7), houve uma grande notícia no mundo da IA: a actriz de Hollywood Milla Jovovich (conhecida por Resident Evil e O Quinto Elemento), em conjunto com o programador Ben Sigman, utilizou Claude Code para ajudar no desenvolvimento do sistema aberto de memória de IA “MemPalace”.

Por um breve momento, espalhou-se amplamente a ideia de “uma superestrela de Hollywood a fazer um projeto perfeito com nota máxima”; até hoje, o MemPalace também já ultrapassou mais de 20k estrelas no GitHub, mas muito rapidamente suscitou dúvidas entre a comunidade de desenvolvimento: há mesmo substância ou é apenas hype?

Antes de mais, vejamos qual foi a motivação por detrás do surgimento do MemPalace. A documentação oficial afirma que o objetivo é resolver a limitação de que, atualmente, os utilizadores dos sistemas de IA e o conteúdo das conversas com a IA, bem como os processos de decisão e as discussões sobre a arquitetura, normalmente desaparecem depois do fim das sessões de trabalho, fazendo com que meses de esforço se percam, cair para zero.

Para resolver este problema, o MemPalace utiliza uma arquitetura espacial para armazenar as memórias, classificando claramente a informação em asas que representam pessoas ou projetos, bem como em estruturas de diferentes níveis, como corredores, salas e gavetas, preservando o texto original das conversas para pesquisa semântica posterior.

A equipa de desenvolvimento afirma que o MemPalace obteve 100% no critério de avaliação de memória de longo prazo LongMemEval, e que alcançou 96,6% de precisão sem chamar quaisquer APIs externas, além de conseguir ser executado totalmente no dispositivo local, sem necessidade de subscrição de serviços cloud, e com um sistema de dialeto AAAK que se afirma atingir uma compressão sem perdas 30x.

Fonte da imagem: GitHub A estrela do cinema americano Milla Jovovich cria um palácio de memórias de IA, gerando atenção no exterior

Colegas e a comunidade levantam dúvidas em conjunto; métodos de teste e falhas na promoção

No entanto, a alegada pontuação máxima do MemPalace no LongMemEval chamou rapidamente a atenção e gerou suspeitas por parte de colegas do setor.

A PenfieldLabs, que também desenvolve sistemas de memórias de IA, apontou que a afirmação de que o MemPalace obteve nota máxima no conjunto de dados LoCoMo é matematicamente impossível, porque as respostas padrão desse conjunto de dados já incluem 99 erros.

A PenfieldLabs analisou e concluiu que a pontuação de 100% do MemPalace resulta do facto de o número de recuperações ter sido definido para 50 vezes, mas o conjunto de dados de teste tem apenas 32 níveis máximos de etapas de diálogo; isto significa que o sistema contorna diretamente a fase de recuperação e entrega todos os dados ao modelo de IA para leitura.

Quanto ao resultado de 100% do LongMemEval, foi descoberto que a equipa de desenvolvimento estava a lidar com 3 problemas específicos de três que se concentram em erros na fase de desenvolvimento, tendo escrito código de correção dedicado, o que levanta suspeitas de batota no conjunto de teste.

Fonte da imagem: Reddit A PenfieldLabs, da comunidade de colegas, aponta que a alegação do MemPalace de obter nota máxima no conjunto de dados LoCoMo é matematicamente impossível

Utilizadores do GitHub testam na prática; há uma componente de indução em erro na avaliação de referência

O utilizador do GitHub hugooconnor comentou após testar em condições reais: quando o MemPalace afirma ter até 96,6% de precisão de recuperação, na prática não usa de todo a arquitetura do palácio de memórias promovida pelo MemPalace. hugooconnor afirma que os testes deles apenas chamaram a funcionalidade predefinida da base de dados subjacente ChromaDB, sem qualquer lógica de classificação envolvendo asas, salas ou gavetas enfatizadas no projeto.

Após testar, o hugooconnor descobriu que, quando o sistema realmente ativa a lógica de classificação exclusiva destes “palácios de memórias”, o desempenho de recuperação piora. Por exemplo, no modo de salas, a precisão desce para 89,4%; e depois de ativar a tecnologia de compressão AAAK, a precisão cai ainda mais para 84,2%, ambas inferiores ao desempenho do repositório de base de dados predefinido.

hugooconnor também criticou a metodologia de teste: no ambiente de testes do MemPalace, o intervalo de recuperação de cada problema é deliberadamente reduzido para cerca de 50 etapas de diálogo; procurar respostas em bases de amostras tão pequenas torna o processo demasiado simples.

Se o intervalo for alargado para mais de 19.000 etapas de diálogo em cenários reais, a precisão da pesquisa tradicional por palavras-chave desce drasticamente para 30%, mostrando que o modo de teste atual do MemPalace está a ocultar o verdadeiro desafio da pesquisa.

Fonte da imagem: GitHub Utilizador do GitHub testa na prática; há uma componente de indução em erro na avaliação de referência do MemPalace

Ao mesmo tempo, embora a equipa de desenvolvimento já tenha publicado uma declaração de correção, reconhecendo que a tecnologia AAAK foi de facto validada como compressão com perdas e prometendo corrigir a documentação e o desenho do sistema de acordo com críticas rigorosas da comunidade, o documento principal de descrição do projeto continua a manter várias afirmações exageradas não corrigidas. Incluem-se alegações de compressão sem perdas 30x e melhoria de 34% na recuperação, e as tabelas comparativas com outros concorrentes também não apresentam totalmente quaisquer fontes.

O código-fonte do MemPalace enfrenta vários bugs

Com o número crescente de programadores a descarregar para testar, há agora muitos relatórios de bugs sobre o código-fonte do MemPalace na plataforma GitHub.

O utilizador cktang88 enumerou várias falhas graves, incluindo que o comando de compressão não consegue funcionar e faz com que o sistema falhe/colapse, erros na lógica de contagem de palavras do resumo, e que os dados estatísticos da “escavação” de salas não são precisos; além disso, o servidor carrega toda a informação interpretativa na memória sempre que é feita uma chamada, causando sérios problemas de consumo de recursos.

Outros problemas apontados incluem o facto de o sistema escrever à força os nomes dos familiares do programador no ficheiro de configuração predefinido e de existir um limite máximo forçado de exibição de 10k registos ao consultar o estado.

Para estes problemas, a comunidade open source já começou a corrigir ativamente. O utilizador adv3nt3 submeteu várias* solicitações de correção***, incluindo a correção dos dados estatísticos da escavação, a remoção dos nomes de familiares predefinidos e o adiamento do tempo de inicialização do gráfico de conhecimento.** A equipa de desenvolvimento também reconheceu posteriormente estes erros e está a resolver gradualmente os problemas de código através da colaboração da comunidade.

Vibe Coding da Milla Jovovich é fixe; o método de marketing não é

Relativamente a este projeto MemPalace, um utilizador do Hacker News chamado darkhanakh chegou a uma conclusão: o MemPalace dá a sensação de OpenClaw, ou seja, manipular artificialmente os resultados do teste de benchmark para parecer imaculadamente perfeito e, em seguida, embalá-lo como uma espécie de grande avanço para fazer marketing.

Ele considera que, embora a tecnologia de base do MemPalace possa mesmo ser interessante, perante este tipo de falhas nos métodos de teste, e ainda assim apostar na divulgação de “o maior resultado público de sempre”, não é muito apropriado. “Mas, quanto a a Milla Jovovich estar a brincar com Vibe Coding, eu acho que ainda assim é bastante fixe.”

Leitura adicional:
IA a escrever código corre mal! App “A Teia do Fim” de produto com validade em loja gera problemas de segurança em casa com GPS inteiro nu a correr

Ver fonte

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Análise GEPA de Berkeley: fazer com que a IA aprenda novas tarefas sem atualizar os pesos, 35 vezes menos custo de treino do que o RL

Ferramentas e aplicações de IA

GEPA é uma nova abordagem de treino de IA proposta pela equipa da UC Berkeley: sem atualização de pesos, sem necessidade de GPUs, recorrendo a fazer com que um LLM faça a leitura completa do registo da tarefa, reflita e reescreva o prompt, em vez de apenas dar feedback via pontuações. As seis tarefas em média registaram uma vantagem de GRPO de 6%, com um máximo de 20%; os rollouts de treino foram reduzidos 35 vezes. A Full Program Adapter, integrada com DSPy, melhora de forma significativa o desempenho em tarefas matemáticas e em fluxos de trabalho multi-modais, atingindo 93% de exatidão. O código é open source, e os autores incluem Matei Zaharia, entre outros.

ChainNewsAbmedia2h atrás

A OpenAI Lança o Codex Pets, um Companheiro Virtual com IA e Geração Personalizada

Notícias da indústria de IA Ferramentas e aplicações de IA

Segundo o Beating, a OpenAI adicionou uma nova funcionalidade “Codex Pets” à aplicação de ambiente de trabalho do Codex, permitindo aos utilizadores gerar e interagir com um companheiro virtual animado. Os utilizadores podem ativar um animal de estimação escrevendo /pet no editor. A funcionalidade funciona como um indicador do estado do agente, mostrando a

GateNews3h atrás

MoonPay Lança o Cartão MoonAgents para Agentes de IA na Rede Mastercard

Parcerias e ecossistema Agente de IA Ferramentas e aplicações de IA

De acordo com a The Block, a MoonPay lançou a MoonAgents Card na sexta-feira, um cartão de débito Mastercard virtual que converte stablecoins em moeda fiduciária em tempo real no momento do pagamento. O cartão é emitido através da Monavate, uma plataforma de pagamentos regulada e membro principal da Mastercard, em parceria com a Exodus M

GateNews7h atrás

A xAI Lança API de Clonagem de Voz com Suporte a 80+ Vozes em 28 Línguas

Ferramentas e aplicações de IA

De acordo com a PANews, a xAI lançou a sua API de Voice Cloning a 2 de maio, permitindo aos utilizadores criar vozes personalizadas em aproximadamente 2 minutos ou selecionar entre mais de 80 vozes predefinidas que abrangem 28 línguas para aplicações, incluindo assistentes de voz, audiolivros e personagens de jogos. A funcionalidade está atualmente

GateNews8h atrás

A MoonPay lança o MoonAgents Card, uma Mastercard virtual para agentes de IA e utilizadores, na sexta-feira

Parcerias e ecossistema Agente de IA Ferramentas e aplicações de IA

Segundo a The Block, a MoonPay lançou a MoonAgents Card, um cartão de débito Mastercard virtual para agentes de IA e utilizadores, na sexta-feira. O cartão converte stablecoins em moeda fiduciária no momento do pagamento e pode ser utilizado em qualquer comerciante online a nível global que aceite Mastercard. Emitido através da Monavate, um pagamento regulado

GateNews17h atrás

A MoonPay Lança o Cartão MoonAgents na Rede Mastercard Sexta-feira

Parcerias e ecossistema Agente de IA Ferramentas e aplicações de IA

De acordo com a The Block, a MoonPay lançou a MoonAgents Card na sexta-feira — um cartão de débito virtual Mastercard que permite a agentes de IA e aos utilizadores gastar stablecoins diretamente a partir de carteiras onchain. O cartão é emitido através da Monavate, uma plataforma global de pagamentos regulamentada e membro principal da Mastercard, em

GateNews19h atrás

Comentar

0/400

Nenhum comentário