Message de Gate News, 20 avril — Les principaux modèles d’IA excellent à résoudre des problèmes complexes comme les mathématiques de type Olympiade, mais peinent avec le travail d’entreprise de routine, selon David Meyer de Databricks. Certains modèles peuvent corriger un numéro de facture incorrect au lieu de le signaler comme une erreur, tandis que des outils de programmation comme Claude peuvent aussi être en dessous des attentes sur des tâches de data engineering.
L’écart s’explique par des différences fondamentales entre les données d’entreprise et le texte du web public utilisé pour entraîner les grands modèles. Les données d’entreprise présentent souvent des libellés de colonnes vagues, de nombreux champs vides et des codes stockés sous forme de texte brut. Dans une étude universitaire, le score F1 d’un modèle d’IA, qui équilibre précision et rappel, est passé de 0.94 sur des données publiques à 0.07 sur des données d’entreprise pour une tâche de data engineering. En outre, les grands modèles ont tendance à revenir par défaut à des schémas familiers issus de l’entraînement ; certains ont conservé (Structured Query Language )SQL par défaut même après avoir reçu des instructions et une documentation pour le langage de requêtes propriétaire d’une entreprise.
Des modèles open source plus petits, ajustés avec l’apprentissage par renforcement, peuvent traiter des tâches spécifiques de manière plus efficace à des coûts d’entraînement nettement inférieurs à ceux des grands modèles généralistes. Databricks construit des agents d’IA plus petits pour des flux de travail spécifiques, comme KARL, qui utilise l’apprentissage par renforcement pour un raisonnement en plusieurs étapes à partir de documents de l’entreprise. L’industrie s’oriente du recours à des modèles géants vers des architectures hybrides où des modèles petits et efficaces gèrent le volume de routine, puis n’escaladent que les cas ambigus ou complexes vers des systèmes plus grands et plus coûteux.
Databricks a récemment acquis Quotient AI pour aider les grandes entreprises à exécuter des agents d’IA de manière plus fiable. La concurrence dans le secteur de l’IA se concentre désormais sur l’exécution de l’ensemble du cycle de vie de l’IA, y compris des systèmes de feedback pour le suivi des erreurs et l’amélioration continue des modèles au fil du temps, ce qui rend les outils d’évaluation et de réglage de plus en plus précieux après le déploiement.
Articles similaires
Bakkt finalise l’acquisition de DTR dans un contexte de croissance des revenus et de refonte stratégique
L’agent IA Manfred forme une société et se prépare à négocier des cryptomonnaies d’ici la fin du mois de mai
L’agent IA Manfred fonde la société, obtient un portefeuille crypto et des références d’embauche avant le lancement de la cotation fin mai
MoonPay lance la carte MoonAgents, une Mastercard virtuelle pour les agents d’IA, vendredi
L’agent IA Manfred forme une société et se prépare à négocier des cryptomonnaies d’ici la fin du mois de mai
Les utilisateurs de ChatGPT peuvent désormais accéder aux abonnements sur la plateforme OpenClaw, annonce Sam Altman