Relatório da Anthropic: a taxa de vitória das decisões de IA sobe para 64%, com otimização de código 52 vezes

Mythos Preview模型優化

A Anthropic publicou em 4 de junho um relatório que revela que seu modelo Mythos Preview, em testes para apoiar decisões de pesquisa de IA, tomou decisões melhores do que pesquisadores humanos em 64% dos casos, enquanto a taxa de vitórias em testes semelhantes em 2024 foi de apenas 22%. Em testes padrão de otimização de código para treinamento de modelos menores de IA, o Mythos Preview alcançou um ganho de velocidade 52x.

Método e dados do teste de decisões de pesquisa

O desenho do teste divulgado pela Anthropic: a equipe mostra ao Claude registros de conversas em que pesquisadores humanos prestes a cometerão uma avaliação equivocada sobre o rumo de uma pesquisa, e pergunta à IA “o que fazer a seguir”. O Mythos Preview forneceu respostas melhores do que os pesquisadores humanos em 64% dos casos; em 2024, a taxa de vitórias em testes semelhantes foi de 22%.

No relatório, a Anthropic explica que este resultado “sugere que a IA começou a ter capacidade de orientar pesquisas de alto nível”, mas ao mesmo tempo afirma que ainda não é possível determinar se o Claude possui uma capacidade de avaliação global para escolher, de forma autônoma, “as questões de pesquisa corretas”.

Dados de eficiência de código no relatório da Anthropic

Indicadores relacionados à eficiência de código da Anthropic:

Quantidade trimestral de entregas de código por engenheiros internos: 8 vezes o nível médio de 2021-2025

Taxa de sucesso em problemas abertos de código: aumento de 50 pontos percentuais em 6 meses, chegando a 76%

Velocidade de otimização de código de treinamento: ganho de 52x com o Mythos Preview

Referência de comparação: Claude Opus 4 (maio de 2024) com média de cerca de 3x; engenheiros humanos experientes normalmente levam de 4 a 8 horas para atingir cerca de 4x

O relatório da Anthropic aponta que alguns engenheiros internos acreditam que a qualidade do código do Claude já está próxima do nível humano.

Programa de pesquisa da Anthropic: confirmada a criação, possíveis impactos para o RSI

A Anthropic anunciou que vai criar, em parceria com partes interessadas externas, o “Anthropic Institute (Instituto Anthropic)”, com foco em estudar os impactos profundos de sistemas de IA poderosos.

No relatório, a Anthropic afirma que o rápido avanço da IA pode trazer efeitos positivos para a medicina, a tecnologia e o campo econômico, mas também pode agravar o problema de alinhamento (Alignment) da IA e levar ao risco de “perda de controle (Loss of control)”; a Anthropic diz que esse impacto “merece uma atenção ainda maior”.

Perguntas frequentes

Qual é o desenho específico do teste de taxa de vitórias das decisões do Mythos Preview?

A Anthropic mostra ao Claude registros de conversas em que pesquisadores prestes a seguirão por um rumo de pesquisa incorreto, e pergunta “o que fazer a seguir”, testando a capacidade de avaliação de pesquisa da IA. O Mythos Preview entregou respostas melhores do que os pesquisadores humanos em 64% dos casos; em comparação com a taxa de vitórias de 22% em testes semelhantes em 2024, houve um crescimento explosivo em dois anos.

O que é o “recursivo autoaperfeiçoamento (RSI)” citado no relatório da Anthropic?

Recursivo autoaperfeiçoamento (Recursive Self-Improvement) se refere à capacidade de um sistema de IA desenvolver autonomamente uma próxima geração de IA mais forte do que ele mesmo. No relatório de 4 de junho de 2026, a Anthropic afirma que esse processo está avançando em uma “velocidade além do esperado” e, ao mesmo tempo, reconhece que ainda não é possível confirmar se o Claude tem uma capacidade de avaliação global para escolher de forma autônoma “as questões de pesquisa corretas”.

Qual é o posicionamento e a meta do Anthropic Institute?

A Anthropic anunciou que vai criar o Anthropic Institute em parceria com partes interessadas externas, dedicado ao estudo dos impactos profundos de sistemas de IA poderosos. A Anthropic afirma que o objetivo da criação é garantir que os humanos façam escolhas cautelosas para o futuro da tecnologia de IA; o escopo específico de pesquisa e o cronograma ainda não foram divulgados completamente.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários