Message de Gate News, 22 avril — Hugging Face a rendu open source ml-intern, un agent de recherche en ML capable d’accomplir de manière autonome l’ensemble du workflow : lire des articles, organiser des jeux de données, lancer l’entraînement sur GPU, évaluer les résultats et itérer pour améliorer. Le projet est construit sur le framework smolagents de Hugging Face et propose à la fois des interfaces en ligne de commande (CLI) et web, avec du code disponible sur GitHub.

La chaîne d’outils de ml-intern est conçue autour de l’écosystème Hugging Face. Elle récupère des articles depuis arXiv et HF Papers tout en retraçant les chaînes de citations pour une lecture plus approfondie ; explore des jeux de données sur HF Hub, valide leur qualité et reformate les données pour l’entraînement ; et, lorsque des ressources GPU locales ne sont pas disponibles, invoque HF Jobs pour lancer des tâches d’entraînement basées sur le cloud. Une fois l’entraînement terminé, l’agent lit automatiquement les sorties d’évaluation, diagnostique les causes d’échec et relance des expériences. Par défaut, il utilise Claude Sonnet 4.5 pour piloter la boucle de décision, avec un maximum de 300 itérations par exécution et une compression automatique du contexte lorsqu’il dépasse 170k tokens.

Hugging Face a démontré trois cas d’usage. Dans une tâche de raisonnement scientifique, l’agent a identifié les jeux de données OpenScience et NemoTron-CrossThink à partir des chaînes de citations, a filtré sept variantes depuis ARC, SciQ et MMLU selon le niveau de difficulté, puis a mené 12 rounds de fine-tuning supervisé sur Qwen3-1.7B, améliorant les scores GPQA de 10 % à 32 % en moins de 10 heures. Pour une application médicale, l’agent a déterminé que les jeux de données existants étaient insuffisants, a écrit des scripts pour générer 1 100 échantillons de données synthétiques et les a mis à l’échelle 50 fois pour l’entraînement, dépassant les performances de Codex de 60 % sur HealthBench. Dans un scénario compétitif de mathématiques, l’agent a rédigé un script d’entraînement GRPO et a lancé l’entraînement sur des GPU A100 via HF Spaces, puis a mené des études d’ablation après avoir observé un effondrement de la récompense.

Afficher la source

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.