Cursor dévoile la méthode d'entraînement « auto-approvisionnement » : utiliser l'ancien Composer pour configurer l'environnement du nouveau modèle, Terminal-Bench augmente de 14 points

BlockBeatNews

Selon la surveillance Beating, Cursor a révélé une astuce d’entraînement pour la série de modèles Composer : utiliser le modèle de la génération précédente pour construire automatiquement un environnement exécutable pour le renforcement de l’apprentissage (RL) de la prochaine génération. Lors de l’entraînement de Composer 2, Cursor a utilisé Composer 1.5 pour effectuer cette tâche, appelée autoinstall.

L’entraînement RL nécessite un environnement de code exécutable. Si l’environnement n’est pas bien configuré, le modèle gaspille des tokens à déboguer, sans apprendre quoi que ce soit ; dans le cas extrême, si l’environnement ne fonctionne pas du tout, toute la puissance de calcul de l’entraînement est perdue. autoinstall résout ce problème en deux étapes : la première, un agent lit la documentation et la configuration du code, et propose 10 commandes de validation avec leurs sorties attendues ; la deuxième, un autre agent prend 3 de ces commandes, configure l’environnement à partir de zéro jusqu’à ce que la commande fonctionne. La deuxième étape peut être réessayée jusqu’à 5 fois, si toutes échouent, l’environnement est abandonné.

Lors de la configuration de l’environnement, l’agent complète activement les dépendances manquantes : falsifie des tables de base de données, crée une configuration MinIO pour remplacer S3, démarre des conteneurs Docker pour agir en tant que services sidecar, voire génère des images de remplacement. Un article de blog utilise le projet blockchain celo-org/celo-monorepo comme exemple pour démontrer tout le processus, où après l’échec de la première tentative de configuration, le second agent crée lui-même des utilisateurs mock pour contourner l’authentification, permettant finalement de faire passer le test.

Composer 2 a obtenu un score de 61,7 % sur Terminal-Bench (un benchmark évaluant la capacité à construire un environnement de développement pour modèles), contre 47,9 % pour Composer 1.5, soit une amélioration de près de 14 points de pourcentage. Cursor indique que dans le futur, il prévoit d’impliquer davantage l’ancienne version de Composer dans d’autres phases d’entraînement, y compris le prétraitement des données, la gestion de l’exécution et l’optimisation de l’architecture.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

L’UE interdit la pornographie deepfake générée par IA le 7 mai

Selon l'agence de presse Xinhua, le 7 mai, des membres du Parlement européen et des États membres sont parvenus à un accord pour interdire aux systèmes d'intelligence artificielle de générer du contenu pornographique deepfake. L'interdiction sera intégrée aux amendements de la loi de 2024 sur l'intelligence artificielle. Parlement européen

GateNewsIl y a 8m

Tether publie le modèle d’IA médicale MedPsy QVAC, atteignant un score de 62,62 sur la version de 17 milliards de paramètres

D'après Odaily, le groupe de recherche en IA de Tether a publié QVAC MedPsy, un modèle d'IA médicale conçu pour fonctionner localement sur des smartphones et des appareils portables sans dépendance au cloud. La version de 1,7 milliard de paramètres a obtenu 62,62 sur sept références médicales, surpassant MedGemma-1.5-4B de Google de 11,42 poi

GateNewsIl y a 28m

Lancement de l’API B.AI avec quatre nouveaux modèles, dont GPT-5.5 Instant, dans les 48 heures suivant la sortie de OpenAI

L’API de B.AI a lancé quatre nouveaux modèles : GPT-5.5 Instant, DeepSeek-v3.2, MiniMax-M2.7 et GLM-5.1. GPT-5.5 Instant a terminé l’adaptation sous-jacente et l’intégration de l’interface dans les 48 heures suivant la sortie d’OpenAI, permettant un accès sans délai à

GateNewsIl y a 33m

Le modèle d’IA médicale de Tether, d’une valeur de 1,7 milliard, surpasse aujourd’hui un concurrent 16 fois plus grand

D’après l’équipe de recherche IA de Tether, la société a lancé aujourd’hui la série de modèles de langage médical QVAC MedPsy, conçue pour un déploiement local sur des smartphones et des objets connectés, sans dépendance au cloud. La version de 1,7 milliard de paramètres a obtenu 62,62 sur sept benchmarks médicaux, dépassant Google MedGemma-4B

GateNewsIl y a 44m

La valorisation pré-IPO d’Anthropic atteint 1,2 billion de dollars, dépassant OpenAI de 20 %

D’après Odaily, l’évaluation implicite d’Anthropic sur le marché de pré-introduction en bourse basé sur la blockchain a atteint 1,2 billion de dollars, dépassant OpenAI d’environ 20 %. Si la société est introduite en bourse à cette valorisation, elle se classerait comme la 11e plus grande entreprise cotée publiquement dans le monde par capitalisation boursière, derrière Apple,

GateNewsIl y a 49m

Le rallye boursier en Corée du Sud surpasse les marchés mondiaux avec l’essor de l’IA

Le marché boursier sud-coréen enregistre des gains sans précédent, portés par les valeurs des semi-conducteurs liées à l’intelligence artificielle, l’indice KOSPI étant en hausse de 78% depuis le début de l’année, devançant tous les autres grands marchés dans le monde, d’après des données de Financial Modeling Prep citées dans une analyse d’Axios. AI

CryptoFrontierIl y a 57m
Commentaire
0/400
Aucun commentaire