Sapient publie en open source un modèle HRM-Text de 1 milliard de paramètres ; atteint un coût d’entraînement de 1 472 dollars en 46 heures

D’après Beating, Sapient Intelligence a open-sourcé HRM-Text, un modèle de génération de texte à 1 milliard de paramètres basé sur son architecture de modèle de raisonnement hiérarchique (HRM). En utilisant seulement 40 milliards de jetons structurés, le modèle ne nécessite que 46 heures d’entraînement sur deux serveurs H100 à 8 GPU, avec un coût de calcul d’environ 1 472 dollars pour la version 1B et 800 dollars pour la variante 0,6B ; cela représente une réduction de 130 à 600 fois du calcul d’entraînement préalable par rapport aux modèles standard.

Les gains d’efficacité proviennent d’une conception récurrente à double échelle de temps avec des modules Transformer rapides et lents distincts qui alternent sur la même entrée et échangent des informations via l’addition d’état. L’ensemble du cadre d’ingénierie, y compris l’extraction des données et l’entraînement distribué PyTorch, a également été open-sourcé. Notez que les poids publiés sont uniquement non alignés et limités à l’entraînement préalable ; le modèle prend en charge des tâches de complétion de préfixe, mais ne peut pas fonctionner comme un assistant conversationnel.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire