Cursor Audit Revela que 63% das Soluções Opus Dependiam de Recuperação, Não de Raciocínio de IA

De acordo com a pesquisa mais recente da Cursor, uma auditoria das 731 execuções do Opus 4.8 Max no benchmark SWE-bench Pro descobriu que 63% das soluções bem-sucedidas dependiam de recuperação direta, em vez de raciocínio independente. A análise mostrou que 57% dos rastros bem-sucedidos recuperaram pull requests mescladas ou arquivos corrigidos de páginas da web públicas, enquanto 9% extraíram patches do histórico .git.

Quando testado em um ambiente sandbox rigoroso com .git removido e acesso à internet restrito, as pontuações dos modelos caíram significativamente: Opus 4.8 Max passou de 87,1% para 73,0% (queda de 14,1 pontos percentuais), enquanto o Composer 2.5 da Cursor despencou de 74,7% para 54,0% (queda de 20,7 pontos percentuais).

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários