O Agente de IA já pode reproduzir de forma independente artigos acadêmicos complexos: Mollick diz que os erros estão mais no texto original humano do que na IA

2026-04-26 03:34:03

Professor Ethan Mollick, da Wharton School da Universidade da Pensilvânia, fez em 25/4 no X uma postagem com uma observação que causa forte impacto na comunidade acadêmica: atualmente, os agentes de IA já conseguem reproduzir de forma independente resultados complexos de pesquisas acadêmicas apenas com descrições públicas do método e dos dados, sem a necessidade de o artigo original e sem o código original. Mollick ainda apontou que, quando essas versões reproduzidas por IA diferem do artigo original, “os erros muitas vezes estão no próprio texto humano, e não na IA”. Isso representa uma virada concreta para a crise de reprodutibilidade na era da IA generativa — a validação entre pares, que antes exigia mão de obra cara, está sendo concluída em larga escala e a baixo custo por IA.

Claude reproduz múltiplos artigos e depois usa o GPT-5 Pro para uma dupla verificação

Em seu blog OneUsefulThing e nesta postagem, Mollick descreveu um experimento específico com Claude: pegar um artigo acadêmico, pedir que ele abra o arquivo de arquivamento, organize os arquivos, converta automaticamente o código do STATA usado para a estatística para Python e, então, execute um a um todos os achados do artigo. Depois de o Claude concluir, ele faz uma segunda rodada de checagem do mesmo resultado de reprodução com o GPT-5 Pro. Vários artigos foram testados do mesmo modo; os resultados foram, em geral, bem-sucedidos, sendo que houve impedimentos apenas quando os arquivos de dados são grandes demais ou quando há problemas com os próprios dados originais de replication data.

Para a comunidade acadêmica, esse tipo de processo normalmente exigia, no passado, que assistentes de pesquisa gastassem semanas ou até meses. A escala de tempo descrita por Mollick é de uma tarde a um dia, e o custo de execução é apenas o custo de tokens de uma API de LLM comercial.

Mais erros estão no texto humano, não na IA

Mais controverso ainda é o julgamento de Mollick sobre “quem errou”. Em sua postagem, ele deixou claro que, quando os resultados reproduzidos por IA não coincidem com o artigo original, na maioria das vezes não é a IA que erra, e sim que o artigo original tem erros no processamento de dados, uso incorreto do modelo ou conclusões além do alcance dos dados que sustentam o estudo. Na psicologia, economia comportamental, administração e outras ciências sociais, já ocorreram várias crises importantes de reprodutibilidade nos últimos dez anos; o caso mais famoso é o grande estudo de reprodução do Open Science Collaboration em 2015, no qual apenas cerca de 36% dos resultados dos artigos de psicologia puderam ser reproduzidos independentemente. O agent de IA está levando esse processo de verificação da fronteira em que “precisa de adequação de recursos humanos” para a fronteira em que “pode ser executado de forma universal”.

Aprenderam ainda não deixar AI entrar na revisão por pares; instituição atrasada em relação à tecnologia

Em outra postagem de 4/25, Mollick citou explicitamente que, na área à qual pertence, a maior associação, a Academy of Management, ainda proíbe formalmente que IA entre no processo de submissão de artigos para avaliação. Ele citou estudos existentes que indicam que a revisão por IA já é superior a alguns avaliadores humanos tradicionais em precisão, consistência e controle de vieses; por isso, “a postura de ‘proibir’” pode, na prática, agravar ainda mais a falha do sistema de revisão que já existe. A lacuna entre esse tipo de instituição e a tecnologia é um tema de política que a comunidade de publicações acadêmicas, as associações e as agências de fomento terão de enfrentar nos próximos 1–2 anos.

Para os leitores, este debate não se limita ao meio acadêmico. Quando o agent de IA consegue verificar descobertas de pesquisa em tempo real, a base acadêmica nas citações de pesquisas industriais, relatórios de políticas e decisões financeiras passará a entrar em um novo critério de verificação: “as conclusões aguentam uma reprodução independente por IA?”. Em complemento à postagem de outro Tweet de Mollick, ele acredita que o governo é a única entidade que pode definir a âncora desse critério de verificação à medida que a intensidade das ferramentas continua a aumentar — e a complexidade do design de políticas, de forma sincronizada, se tornará também um eixo relativamente negligenciado nas discussões de governança de IA.

Este artigo mostra que o AI Agent já pode reproduzir independentemente artigos acadêmicos complexos: Mollick diz que os erros estão mais no texto humano do que na IA, com a primeira aparição em 鏈新聞 ABMedia.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.

Notícias relacionadas

04-25 03:11

Nvidia Implementa o Agente de IA Codex da OpenAI em Toda a Força de Trabalho na Infraestrutura Blackwell

04-25 01:21

OpenClaw v2026.4.23 Adiciona Suporte Direto a OAuth do gpt-image-2, Introduz o Modo de Contexto Forked para Subagentes

04-24 12:21

Cofundador da NeoSoul Kaelan: a Indústria de IA deve permitir que brinquedos existam; a inovação muitas vezes começa como produtos experimentais

Avaliação no mercado secundário da Anthropic ultrapassa 1 trilhão de dólares: Forge Global supera a OpenAI em 880 bilhões

ChainNewsAbmedia04-24 07:14

OpenAI lança GPT-5.5: contexto de 12M, índice AA em primeiro lugar, Terminal-Bench 82,7% reescreve o benchmark de agentes

ChainNewsAbmedia04-23 19:45

A Anthropic revela que o Claude Code tem três bugs em cascata: degradação do raciocínio, esquecimento de cache e instruções de 25 caracteres com efeito colateral adverso

ChainNewsAbmedia04-23 18:14

Escritórios de advocacia de primeira linha cobram mais de 2.000 dólares por hora, e documentos judiciais foram desmascarados por “alucinações de IA e erros em série”

ChainNewsAbmedia04-23 09:54

Engenho de respostas por IA é alvo de poluição coletiva: 56% das respostas corretas no Gemini 3 não têm suporte de fonte

ChainNewsAbmedia04-23 08:43

Comentário

0/400

Sem comentários