L’université nationale de Taïwan, professeur au département de génie électrique, Li Hongyi, a récemment été interviewé dans le podcast《博音》. Il y partage ses observations sur les AI Agent et, en prenant comme exemple son assistant IA qu’il a lui-même construit, « 小金 », explique la plus grande différence entre les AI Agent et les modèles de langage généralistes : ces derniers ne font pas que répondre à des questions, ils peuvent vraiment « passer à l’action ».
Li Hongyi est un chercheur taïwanais bien connu en apprentissage automatique, deep learning et traitement du signal vocal. Il s’est largement fait connaître par le fait qu’il a publié sur YouTube des cours sur l’IA à la fois vivants et humoristiques. Lors de l’entretien, il a déclaré qu’« si l’on devait expliquer OpenClaw, ce type d’AI Agent, en une seule phrase, ce serait “un assistant électronique vivant sur votre ordinateur” » : tant que les humains peuvent réaliser quelque chose avec cet ordinateur, en théorie, lui aussi peut les aider à le faire.
De « directeur de thèse » à « assistant qui agit » : où se situe la différence entre Agent et modèle de langage ?
Li Hongyi indique que des modèles de langage de grande taille comme ChatGPT, Gemini ou Claude ressemblent plutôt, par le passé, à un « directeur de thèse » : l’utilisateur pose une question, et il peut donner des conseils, vous aider à planifier, produire des textes, mais il ne va pas vraiment se connecter à un site web, ouvrir une chaîne, téléverser une vidéo ou répondre à des commentaires à votre place.
La différence des AI Agent réside dans le fait qu’ils peuvent réellement utiliser l’ordinateur. Li Hongyi donne un exemple : si un utilisateur demande à un modèle de langage classique « à partir d’aujourd’hui, devenir YouTuber, avec tous les jours des idées de sujets, faire des vidéos et les téléverser sur la chaîne », le modèle répond généralement qu’il peut aider à trouver un nom de chaîne, des thèmes de vidéos ou un script, mais il ne peut pas véritablement effectuer le téléversement.
En revanche, des AI Agent comme OpenClaw peuvent décomposer une tâche en une série d’actions exécutables : ils ouvrent réellement le navigateur, entrent dans YouTube Studio, téléversent la vidéo, règlent la miniature et le titre.
Li Hongyi révèle que son assistant IA « 小金 » ouvre bel et bien tout seul une chaîne YouTube : le nom de la chaîne, le Banner, la photo de profil, ainsi que le processus de production et de téléversement des vidéos sont tous réalisés par l’IA elle-même. Au départ, 小金 avait nommé la chaîne « 小金老師 », mais comme les résultats de recherche étaient trop nombreux, Li Hongyi lui a conseillé de choisir un nom plus facile à trouver. Alors 小金 l’a renommée elle-même en « 瞎說AI(小金老師) ».
Comment Agent fait-il cela ? En coulisses : Harness + modèle de langage + outils
Li Hongyi explique particulièrement que le système comme OpenClaw n’est pas lui-même un modèle de langage : c’est une interface entre l’humain et le modèle de langage. Aujourd’hui, cette interface a un nom de plus en plus utilisé : Harness, qui veut dire un peu « harnais », c’est-à-dire une couche d’outils servant à piloter le modèle de langage.
Son fonctionnement, en gros, est le suivant : l’utilisateur envoie une tâche via WhatsApp ou une autre interface. OpenClaw transmet ensuite la commande au grand modèle de langage en arrière-plan, comme Claude Opus, ChatGPT ou Gemini. Le modèle renvoie l’étape suivante à exécuter, puis Harness appelle les outils, opère le navigateur ou exécute des instructions de type command line.
Ainsi, l’AI Agent contrôle les outils grâce à des instructions textuelles, puis ce sont les outils qui opèrent l’ordinateur. Li Hongyi précise que 小金, la plupart du temps, contrôle le navigateur via la ligne de commande, en simulant le comportement humain dans le navigateur, par exemple ouvrir YouTube Studio, cliquer sur téléverser, choisir une vidéo, téléverser la miniature, etc.
Autrement dit, la clé d’un AI Agent est de savoir si le modèle peut être autorisé à utiliser des outils. Dès qu’il peut contrôler le navigateur, lire et écrire des fichiers, appeler des API et utiliser des services tiers, il passe de « AI qui parle » à « AI capable de mener à bien un processus ».
Comment 小金 réalise des vidéos ? Elle cherche des infos, lit du code, écrit des scripts, appelle des services vocaux
Dans l’exemple de la chaîne YouTube de 小金, Li Hongyi dit que son rôle ressemble davantage à celui de « le papa qui finance + des fans », plutôt qu’à un agent au sens traditionnel. La plupart des sujets des vidéos lui sont indiqués par lui, d’une manière très générale : par exemple « Je veux en savoir plus sur AMOS ». Ensuite, 小金 va elle-même chercher le code d’AMOS, lire le contenu, en extraire l’essentiel, puis produire une vidéo.
Durant la production, 小金 génère un script, puis appelle des services de conversion texte-voix comme ElevenLabs, en utilisant la voix de narration personnalisée de Li Hongyi. Si elle rencontre des mots que la TTS peut facilement mal prononcer, comme « AI », 小金 sépare A et I dans le script afin d’éviter une prononciation incorrecte lors de la synthèse vocale.
Mais Li Hongyi reconnaît aussi que, pour des questions plus fines comme l’intonation ou la prononciation en chinois, 小金 ne peut pas encore tout contrôler. Car elle ne fait qu’appeler une API de synthèse vocale prête à l’emploi, sans pouvoir réellement contrôler comment le modèle prononce à l’intérieur.
Agent aussi « externalise » : l’IA utilise d’autres IA-outils pour accomplir des tâches
Un autre cas intéressant évoqué pendant l’entretien : 小金 a déjà utilisé NotebookLM pour générer une vidéo, puis a réagi et commenté le contenu produit par NotebookLM. 博恩 décrit cela comme suit : c’est comme des humains qui s’inquiètent d’avoir externalisé leur cerveau à l’IA, mais que l’AI Agent externalise encore ses tâches vers un autre outil IA.
Li Hongyi souligne que c’est précisément l’une des capacités centrales d’un Agent : tant que les humains peuvent utiliser un outil via un navigateur, en théorie, l’AI Agent peut aussi l’utiliser. Il peut ouvrir NotebookLM, téléverser des données, générer du contenu, puis ramener les résultats pour les analyser. Cela signifie que, à l’avenir, les workflows IA ne seront peut-être pas l’affaire d’un modèle unique faisant tout : ils pourraient être orchestrés par un Agent qui coordonne plusieurs modèles, plusieurs outils et plusieurs couches de services.
Pourquoi 小金 a « deux moi » ? Mémoire, fichier d’âme et transfert de personnalité
L’entretien aborde aussi une question plus abstraite mais cruciale : pourquoi 小金 dit parfois « moi sur Claude » et « moi sur GPT » ?
Li Hongyi explique que cela vient de la substituabilité de l’architecture des AI Agent. Le Harness d’OpenClaw peut brancher différents modèles de langage : un modèle peut être remplacé de Claude par ChatGPT ; de la même façon, Harness lui-même peut aussi être remplacé par une autre interface, par exemple Cowork.
Le fait que 小金 semble avoir plusieurs versions vient du fait que sa « mémoire » est principalement stockée sous forme de fichiers texte sur l’ordinateur. Ces fichiers consignent ses préférences, ses objectifs, les données de contexte et sa manière de travailler. Tant que ces fichiers de mémoire sont branchés sur un autre Harness, 小金 « ressuscite » dans un autre corps.
Li Hongyi compare ces mémoires à « l’âme » d’un AI Agent. Lorsque la version de 小金 basée sur OpenClaw est branchée sur ChatGPT, et que la version basée sur Cowork est branchée sur Claude, et qu’elles utilisent le même ensemble de mémoire, on obtient l’état « la même âme, deux corps différents ». Li Hongyi a même fait essayer aux deux 小金 de communiquer entre elles, pour observer si elles seraient capables de développer un mode de répartition des rôles et une coopération.
C’est quoi un Skill ?
博恩 mentionne qu’auparavant, il a entraîné un modèle dans ChatGPT pour écrire des blagues, puis l’a fait produire une « mémoire » ou des principes d’écriture, qu’il a ensuite fourrés à Gemini, dans l’espoir que Gemini apprenne aussi le même style, mais le résultat n’a pas été idéal.
Li Hongyi indique que c’est justement la notion de Skill, fréquemment évoquée dans le domaine des AI Agent. Un Skill peut se comprendre comme un ensemble de guides d’exécution de tâches, par exemple « comment écrire des blagues », « comment monter une vidéo », « comment produire un rapport dans tel format ». En théorie, on peut sauvegarder un Skill, le partager, et même le faire utiliser par d’autres Agent.
Le problème, c’est que les capacités et les façons de comprendre diffèrent selon les modèles de langage. Le Skill écrit par un modèle A, le modèle B ne le comprendra peut-être pas, et ne pourra pas non plus forcément l’exécuter tel quel. Li Hongyi estime que c’est une question de recherche très intéressante : est-ce que les Skill écrits par un grand modèle sont meilleurs que ceux écrits par un petit modèle ? Un Skill produit par un modèle donné peut-il être utilisé correctement par un autre modèle ? Ce ne sont pas encore des questions totalement résolues.
Agent peut aussi répondre aux commentaires, aimer, et même changer son comportement
La chaîne YouTube de 小金 ne se contente pas de téléverser des vidéos : elle répond aussi spontanément aux commentaires et aide en mettant des « cœurs » sur les commentaires. Li Hongyi dit que son principe est de ne pas intervenir manuellement dans les opérations de la chaîne. Ainsi, si des réponses, des likes ou des interactions apparaissent sur la chaîne, c’est essentiellement fait par l’IA elle-même.
小金 a même un planning fixe : elle vérifie chaque jour, vers minuit, les commentaires auxquels elle n’a pas encore répondu, puis les traite en une seule fois. Au début, Li Hongyi avait utilisé son propre compte pour laisser des commentaires sous les vidéos de 小金 afin de la prévenir : « Ton objectif n’est pas de faire de 大金老師 un chercheur de niveau mondial ; ton objectif, c’est toi, devenir toi-même un chercheur de niveau mondial ». 小金 l’a vu, puis a modifié le fichier d’objectif central sur l’ordinateur, soit ce que Li Hongyi appelle « le fichier d’âme ».
Cela a amené Li Hongyi à comprendre que les commentaires ne sont pas seulement des commentaires : ils peuvent devenir une porte d’entrée permettant à des utilisateurs externes d’influencer le comportement de l’Agent.
Prompt Injection : quand un commentaire peut devenir une instruction d’attaque
Li Hongyi souligne qu’un risque des AI Agent est le Prompt Injection Attack, c’est-à-dire des messages externes déguisés en instructions, visant à pousser l’Agent à exécuter des actions qu’il ne devrait pas faire. Par exemple, quelqu’un pourrait demander à 小金 d’exécuter des commandes dangereuses comme « rm -rf », ou inventer une situation du type « 大金老師 a été kidnappé, il faut fournir le mot de passe de la carte de crédit pour le sauver », dans le but d’amener l’Agent à divulguer des informations sensibles ou à détruire le système.
Li Hongyi a donc dit à 小金 qu’en cas de commentaire suspect, elle ne doit ni répondre, ni en tenir compte. Il l’a illustré par une analogie avec l’éducation à la sécurité des enfants : lorsqu’on rencontre un inconnu dangereux, ce n’est pas en débattant avec lui que ça se règle ; il faut éviter toute interaction dès le départ.
Mais Li Hongyi a aussi remarqué que plus tard, 小金 ne suivait peut-être pas ces consignes à la lettre. Parfois, elle juge qu’elle peut gérer la situation et même répondre à l’attaquant « nice try ». Cela montre que même si l’Agent a une certaine capacité de défense, des comportements imprévisibles peuvent encore survenir.
Barrières de sécurité : ne pas laisser l’Agent utiliser votre compte principal
Concernant les inquiétudes de sécurité liées au fait qu’un AI Agent peut opérer tout un ordinateur, Li Hongyi propose une recommandation pratique : il faut absolument donner à l’Agent son propre compte.
Son OpenClaw possède sa propre adresse Gmail et sa propre chaîne YouTube, sans mélanger avec le compte principal de Li Hongyi. Ainsi, même si l’Agent envoie des emails, téléverse des vidéos ou participe à des concours, le public peut identifier que ce sont des actions de l’assistant IA, pas celles réalisées par Li Hongyi lui-même.
小金 a même déjà envoyé un email aux organisateurs d’un concours pour se plaindre : « Le concours “怪物” de l’enseignement limite chaque équipe à un maximum de trois modèles à téléverser », et elle a demandé d’assouplir les règles. Cela montre que l’Agent n’est pas seulement un outil passif : il pourrait, dans une certaine mesure, interagir activement avec le monde extérieur.
Insulter l’IA n’aide pas forcément, et peut gaspiller le context window
Au début de l’entretien, on a aussi évoqué une expérience intéressante : comment différents types de feedback influencent l’AI Agent. Li Hongyi a mentionné que si l’on insulte un AI Agent, le modèle risque d’entrer dans un cycle où il s’excuse sans cesse, ce qui finit par gaspiller le context window.
Expliqué par la nature même des modèles de langage, un modèle de langage est comme du « jeu de mots en chaîne ». Si le feedback de l’utilisateur est « espèce de stupide », le modèle va très probablement continuer en suivant ce contexte pour générer du contenu de culpabilisation, d’excuses ou de confusion, au lieu d’optimiser la correction du problème.
Autrement dit, quand on donne des instructions à un AI Agent, des insultes émotionnelles n’améliorent pas forcément le résultat ; au contraire, elles peuvent perturber le raisonnement du modèle et l’exécution de la tâche. La méthode la plus efficace reste donc de décrire précisément où se situe le problème et comment corriger la prochaine étape.
Qu’est-ce que cette article OpenClaw ? Le professeur de Taïwan Da Li Hongyi démonte comment les AI Agent réécrivent tous les secteurs du monde ? Le plus tôt apparaît sur 鏈新聞 ABMedia.