
Anthropic 於 4 de junio publicou um relatório, revelando que seu modelo de Mythos Preview, nos testes para ajudar a decisões de pesquisa em IA, obteve decisões melhores do que pesquisadores humanos em 64% dos casos, enquanto testes semelhantes em 2024 tiveram apenas 22% de taxa de vitória. Nos testes-padrão de otimização de código de treinamento de modelos pequenos de IA, o Mythos Preview alcançou um aumento de velocidade de 52 vezes.
Metodologia e dados dos testes de decisão de pesquisa
O desenho do teste divulgado pela Anthropic: a equipe mostrou a Claude registros de conversas em que pesquisadores humanos estavam prestes a fazer julgamentos incorretos sobre o rumo da pesquisa, e perguntou à IA “como deve agir a seguir”. O Mythos Preview forneceu respostas melhores do que pesquisadores humanos em 64% dos casos; em 2024, a taxa de vitória de testes semelhantes foi de 22%.
No relatório, a Anthropic explica que esse resultado “sugere que a IA já começou a ter capacidade de orientar pesquisas de alto nível”, mas ao mesmo tempo afirma que ainda não consegue determinar se o Claude possui uma capacidade global de escolher autonomamente “as questões de pesquisa corretas”.
Dados de eficiência de código no relatório da Anthropic
Indicadores relacionados à eficiência de código da Anthropic:
Volume trimestral de entrega de código por engenheiros internos: 8 vezes o nível médio de 2021-2025
Taxa de sucesso de problemas de código abertos: aumento de 50 pontos percentuais em 6 meses, chegando a 76%
Velocidade de otimização do código de treinamento: aumento de 52 vezes com o Mythos Preview
Referência de comparação: Claude Opus 4 (maio de 2024) cerca de 3 vezes em média; engenheiros humanos experientes normalmente levam 4-8 horas para atingir cerca de 4 vezes
O relatório da Anthropic aponta que alguns engenheiros internos consideram que a qualidade do código do Claude está muito próxima do nível humano.
Pesquisa na Anthropic: confirmação de criação, possível impacto do RSI
A Anthropic anunciou que vai cooperar com partes interessadas externas para estabelecer o “Anthropic Institute”, dedicado a pesquisar os impactos profundos de sistemas de IA poderosos.
No relatório, a Anthropic afirma que o desenvolvimento acelerado da IA traz esperança de efeitos positivos para áreas como medicina, tecnologia e economia, mas também pode agravar o problema de alinhamento (Alignment) da IA e levar ao risco de “perda de controle (Loss of control)”; a Anthropic descreve que esse impacto “merece uma atenção ainda maior”.
Perguntas frequentes
Qual é o desenho específico do teste de taxa de vitória de decisões do Mythos Preview?
A Anthropic mostrou a Claude registros de conversas em que pesquisadores estavam prestes a seguir um rumo incorreto de pesquisa, e perguntou “como deve agir a seguir”, para testar a capacidade de julgamento de pesquisa da IA. Em 64% dos casos, o Mythos Preview deu respostas melhores do que pesquisadores humanos; em comparação com a taxa de vitória de 22% em testes semelhantes de 2024, houve um crescimento explosivo em dois anos.
O que é o “Rápido de Autoaperfeiçoamento Recursivo (RSI)” mencionado no relatório da Anthropic?
O Rápido de Autoaperfeiçoamento Recursivo (Recursive Self-Improvement) refere-se à capacidade de um sistema de IA de desenvolver autonomamente uma próxima geração de IA mais poderosa do que si mesmo. No relatório de 4 de junho de 2026, a Anthropic afirma que esse processo está avançando em uma “velocidade além do esperado” e, ao mesmo tempo, admite que atualmente não consegue determinar se o Claude possui uma capacidade global de escolher autonomamente “as questões de pesquisa corretas”.
Qual é a posição e os objetivos do Anthropic Institute?
A Anthropic anunciou que, em cooperação com partes interessadas externas, criará o Anthropic Institute, dedicado a pesquisar os impactos profundos de sistemas de IA poderosos. A Anthropic afirma que o objetivo da criação é garantir que os seres humanos possam fazer escolhas prudentes para o futuro das tecnologias de IA; as áreas específicas de pesquisa e o cronograma ainda não foram totalmente divulgados.