Cursor revela método de treino "auto-inicialização": usar um Composer antigo para criar o ambiente para o novo modelo, Terminal-Bench aumenta 14 pontos

robot
Geração de resumo em curso

De acordo com o monitoramento Beating, a Cursor revelou uma técnica de treino para a série de modelos Composer: usar o modelo da geração anterior para montar automaticamente um ambiente de execução para o próximo, através de aprendizagem por reforço (RL). Ao treinar o Composer 2, a Cursor utilizou o Composer 1.5 para realizar essa tarefa, chamando-a de autoinstall.

O treino por RL requer um ambiente de código executável. Se o ambiente não estiver bem configurado, o modelo desperdiça tokens na correção de bugs, sem aprender nada; em casos extremos, o ambiente fica completamente inoperante, e toda a potência de cálculo da rodada de treino é desperdiçada. O autoinstall resolve esse problema em duas etapas: a primeira, um agente lê a documentação e configurações do repositório de código, propondo 10 comandos de validação e suas saídas esperadas; a segunda, outro agente pega 3 desses comandos e configura o ambiente do zero até que eles funcionem. A segunda etapa tenta no máximo 5 vezes; se todas falharem, o ambiente é descartado.

Durante a configuração do ambiente, o agente ativa a complementação de dependências ausentes: falsifica tabelas de banco de dados, cria configurações MinIO como substituto do S3, inicia containers Docker para atuar como serviços sidecar, e até gera imagens de placeholder. Um artigo usa o projeto blockchain celo-org/celo-monorepo como exemplo para demonstrar todo o processo, onde, após a primeira tentativa de configuração falhar, na segunda o agente cria usuários mock para contornar a autenticação, e finalmente consegue executar os testes.

O Composer 2 obteve uma pontuação de 61,7% no Terminal-Bench (uma métrica que avalia a capacidade de montar ambientes de desenvolvimento de modelos), superando em quase 14 pontos percentuais os 47,9% do Composer 1.5. A Cursor afirma que, no futuro, planeja envolver versões antigas do Composer em mais etapas do treino, incluindo pré-processamento de dados, gerenciamento de execução e ajuste de arquitetura.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar