Cursor revela el método de entrenamiento "auto-inicialización": usar Composer antiguo para preparar el entorno del nuevo modelo, Terminal-Bench aumenta 14 puntos

robot
Generación de resúmenes en curso

Según la monitorización de Beating, Cursor reveló un truco de entrenamiento para la serie de modelos Composer: usar el modelo de la generación anterior para construir automáticamente un entorno de ejecución para el aprendizaje por refuerzo (RL) de la próxima generación. Al entrenar Composer 2, Cursor utilizó Composer 1.5 para realizar esta tarea, denominado autoinstall.

El entrenamiento RL requiere un entorno de código ejecutable. Si el entorno no está bien configurado, el modelo desperdicia tokens en depurar errores, sin aprender nada; en casos extremos, el entorno no funciona en absoluto, y toda la potencia de cálculo del entrenamiento se desperdicia. autoinstall resuelve este problema en dos pasos: primero, un agente lee la documentación y configuración del repositorio de código, y propone 10 comandos de validación con sus salidas esperadas; segundo, otro agente toma 3 de esos comandos, configura el entorno desde cero hasta que los comandos se ejecuten correctamente. La segunda etapa puede reintentar hasta 5 veces, y si todos fallan, se descarta ese entorno.

Durante la configuración del entorno, el agente rellenará proactivamente las dependencias faltantes: falsificando tablas de bases de datos, creando configuraciones de MinIO como sustituto de S3, iniciando contenedores Docker para actuar como servicios sidecar, e incluso generando imágenes de marcador de posición. En un blog, se utilizó el proyecto de blockchain celo-org/celo-monorepo como ejemplo para demostrar todo el proceso, donde tras la primera falla en la configuración del entorno, en la segunda ronda el agente creó automáticamente usuarios simulados para sortear la autenticación, logrando finalmente ejecutar la prueba.

Composer 2 obtuvo una puntuación de 61.7% en Terminal-Bench (una referencia para evaluar la capacidad de construir entornos de desarrollo de modelos), superando en casi 14 puntos porcentuales al 47.9% de Composer 1.5. Cursor indica que en el futuro planean involucrar más al Composer de versiones anteriores en varias etapas del entrenamiento, incluyendo preprocesamiento de datos, gestión de ejecución y ajuste de arquitectura.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado