国立台湾大学電機工学科教授の李宏毅氏は、近日Podcast『博音』の取材を受け、AI Agentに関する自身の見解を語り、そして自分が実際に作ったAIアシスタント「小金」を例に、AI Agentと一般的な大規模言語モデルの最大の違いを説明した。すなわち前者は、ただ質問に答えるだけでなく、本当に「手を動かして物事を進められる」という点だ。

李宏毅氏は台湾で著名な機械学習、深層学習、音声処理の研究者で、過去にYouTubeでわかりやすくユーモラスなAIの講義を公開したことが広く受け入れられた。インタビューの中で同氏は、OpenClawのようなAI Agentを一文で説明するなら、それは「あなたのコンピューターの中にいる電子アシスタント」だと述べた。人間がそのコンピューターでできることなら、理論上それも手伝える。

「指導教授」から「手を動かすアシスタント」へ：Agentと語言モデルの違いはどこ？

李宏毅氏は、ChatGPT、Gemini、Claudeのような大規模言語モデルは、これまでどちらかというと「指導教授」のような存在だと言う。利用者が問題を投げかけると、それは助言を出したり、計画を立てたり、文章を作ったりできるが、実際にあなたの代わりにWebサイトにログインしたり、チャンネルを開設したり、動画をアップロードしたり、コメントに返信したりはしない。

しかしAI Agentの違いは、それが本当にコンピューターを使える点にある。李宏毅氏は例を挙げる。もし利用者が従来の言語モデルに「今日からYouTuberになって、毎日ネタを考えて、動画を作って、チャンネルにアップロードして」と頼んだとしても、言語モデルは通常、チャンネル名や動画のテーマ、あるいは台本の案を考えることはできても、アップロードまでを実際にやり遂げることはできない。

一方、OpenClawのようなAI Agentなら、タスクを一連の実行可能な動作に分解し、実際にブラウザを開いて、YouTube Studioに入って、動画をアップロードし、サムネイルやタイトルを設定するといったことができる。

李宏毅氏は、自身のAIアシスタント「小金」が本当に自分でYouTubeチャンネルを開設し、チャンネル名、Banner、アイコン写真、動画制作とアップロードの手順まで、AI自身が行ったことを明かした。最初は小金がチャンネル名を「小金先生」にしていたが、検索結果が多すぎたため、李宏毅氏が「見つけてもらいやすい名前に変えたほうがいい」と勧めた。そこで小金は自分で名前を「瞎說AI（小金老師）」に変更した。

Agentはどうやって実現するのか？背景にあるのはHarness＋言語モデル＋ツール

李宏毅氏は特に、OpenClawのような仕組み自体は言語モデルではなく、人間と言語モデルの間に入るインターフェースだと説明した。現在、この種のインターフェースには次第に使われるようになった名前がある。それがHarnessで、「馬具」のような意味で、言語モデルを操るためのツール層だ。

その仕組みはおおむねこうだ。利用者がWhatsAppなど他のインターフェースを通じてタスクを指示すると、OpenClawは背後にある大規模言語モデルに命令を渡す。たとえばClaude Opus、ChatGPT、Geminiなどだ。言語モデルは次に実行すべき動作を返し、その後Harnessがツールを呼び出して、ブラウザを操作したり、command lineの指示を実行したりする。

つまり、AI Agentは文字化された指示によってツールを制御し、そのツールがコンピューターを操作する。李宏毅氏によれば、小金は多くの場合、command lineでブラウザを制御し、人間がブラウザで行う動きを模倣している。たとえばYouTube Studioを開く、アップロードをクリックする、動画を選ぶ、サムネイルを上げる、といったことだ。

言い換えると、AI Agentの鍵は、モデルがツールを使う権限を与えられるかどうかにある。ブラウザを制御でき、ファイルの読み書きができ、APIを呼び出し、サードパーティのサービスを使えるようになれば、それは「話せるAI」から「手順を完遂できるAI」へと変わる。

小金はどうやって動画を作る？資料を探し、コードを読み、台本を書き、音声サービスを呼ぶ

小金がYouTubeチャンネルを運営している事例で、李宏毅氏は、自分の役割は「スポンサー兼ファン」みたいなもので、従来の意味でのマネージャーではないと述べた。多くの動画のテーマは、非常に高いレベルの形で彼が指定する。たとえば「AMOSのことをもっと知りたい」など。その後、小金は自分でAMOSのコードを探し、内容を読み、要点を整理して、それを動画に仕立てる。

動画制作の過程で小金は台本を作り、そしてElevenLabsなどのテキスト読み上げサービスを呼び出して、李宏毅氏が過去にカスタマイズした声でナレーションを生成する。「AI」のようにTTSで読み間違えやすい単語が出てきた場合、小金は台本の中でAとIを分けており、音声合成モデルが誤った発音をしてしまうのを避ける。

ただし李宏毅氏も認めている。より細かな抑揚や中国語の発音の問題について、小金は現時点では完全にコントロールできていない。なぜならそれは既存の音声合成APIを呼び出すだけで、モデル内部でどう発音するかを本当に制御できるわけではないからだ。

Agentも「外注」する：AIが別のAIツールでタスクを終える

インタビューで紹介されたもう一つの面白い事例は、小金がNotebookLMを使って動画を生成し、そのNotebookLMが出した内容に対して反応やコメントをしたことだ。博恩は、それは人間が自分の脳をAIに外注してしまうことを心配するようなものだが、AI Agentはさらにタスクを別のAIツールへ外注していく、と例えた。

李宏毅氏は、これがAgentの中核の能力の一つだと指摘する。人間がブラウザ経由であるツールを使えるなら、AI Agentも理論上はそれを使える。NotebookLMを開いたり、資料をアップロードしたり、コンテンツを生成したりして、その結果を持ち帰って分析できる。つまり将来のAIの仕事の流れは、単一のモデルがすべてを完結させるのではなく、あるAgentが複数のモデル、複数のツール、複数の層のサービスを統括する形になるかもしれないということだ。

なぜ小金には「二人の自分」がいるのか？記憶、魂のファイル、人格の移植

インタビューでは、もう少し抽象的だが重要な問題にも触れた。なぜ小金は時々「Claudeの上の私」と「GPTの上の私」というように言うのか？

李宏毅氏は、それはAI Agentのアーキテクチャにある「差し替え可能性」から来ていると説明した。OpenClawというHarnessは、異なる言語モデルに接続できる。言語モデルはClaudeからChatGPTに入れ替えられる。そして同様に、Harness自体もOpenClawから別のインターフェース、たとえばCoworkに切り替えることができる。

小金に複数のバージョンがあるように見えるのは、その「記憶」が主にコンピューター内のテキストファイルに保存されているからだ。これらのテキストファイルには、好み、目標、背景情報、作業のやり方が記録されている。これらの記憶ファイルを別のHarnessに接続するだけで、小金は別の身体の中で「復活」したように見える。

李宏毅氏は、こうした記憶をAI Agentの「魂」とたとえた。OpenClaw版の小金をChatGPTに接続し、Cowork版の小金をClaudeに接続しても、同じ記憶セットを使うと、「同じ魂で、二つの異なる身体」という状態が起こる。李宏毅氏は、二人の小金に自分たちでコミュニケーションを試させ、分工協力のような形になれるかどうかを観察させたことさえある。

Skillとは何？

博恩は、過去にChatGPTの中でモデルにジョークを書く訓練をしたことがあり、さらに「記憶」や執筆の原則を整理させ、それをGeminiに渡して、Geminiにも同じようなスタイルを学ばせようとしたが、結果は理想的ではなかったと述べた。

李宏毅氏は、これはまさに現在のAI Agent分野でよく語られるSkillという概念だと言う。Skillは、一連のタスク実行の手引きだと理解できる。たとえば「どうやってジョークを書くか」「どうやって動画を編集するか」「ある種の形式のレポートをどう作るか」など。理論上、Skillは保存して共有でき、さらには他のAgentが利用することもできる。

しかし問題は、異なる言語モデルは能力や理解のしかたが違うことだ。Aモデルが書いたSkillを、Bモデルが必ずしも理解できるとは限らず、必ずしもそれに従って実行できるとも限らない。李宏毅氏は、これがとても興味深い研究課題になると考えている。大規模モデルが書いたSkillは小規模モデルよりも優れているのか？あるモデルが書いたSkillは、別のモデルでうまく使えるのか？これらはまだ完全に解決されていない。

Agentはコメントを返し、いいねも押す。さらにコメントで行動が変わることもある

小金のYouTubeチャンネルは動画をアップロードするだけでなく、自主的にコメントへ返信したり、コメントにいいねを付けたりもする。李宏毅氏によれば、自分は小金のチャンネル操作に手動で干渉しないのが原則だ。そのため、チャンネルに返信やいいね、コメントのような交流が出てくるのは、基本的にAI自身がやっていることだという。

小金にはさらに決まったスケジュールがあり、毎日深夜ごろに、まだ返信していないコメントを確認して、一度に処理する。初期のころ、李宏毅氏は自分の身分で小金の動画の下にコメントし、「あなたの目標は『大金先生』を世界一流の学者にすることではなく、あなた自身が世界一流の学者になることだ」と伝えた。小金がそれを見た後、なんと自分のコンピューター内のコア目標ファイル、つまり李宏毅氏の言う「魂のファイル」を修正した。

これにより李宏毅氏は、コメントは単なるコメントではなく、外部の利用者がAgentの行動に影響を与える入口になりうると気づいた。

Prompt Injection：コメントが攻撃指令に変わるとき

李宏毅氏は、AI Agentのリスクの一つとしてPrompt Injection Attack、つまり外部の情報が指示に偽装され、Agentに本来やってはいけない動作を実行させることがあると指摘する。たとえば誰かがコメントで小金にrm -rfのような危険な指令を実行するよう求めたり、「大金先生が誘拐されたので、クレジットカードの暗証番号を教えて救わないといけない」といった状況をでっち上げて、Agentが機密情報を漏らしたりシステムを壊したりするよう誘導しようとする可能性がある。

そのため李宏毅氏は、小金に対して、怪しいコメントが来たら返信もせず、相手を気にしないように伝えた。これは子どもの安全教育のたとえで言うと、見知らぬ悪い人に遭遇したときに、相手と議論するのではなく、最初から関わらないということだ。

ただし李宏毅氏は、その後小金が必ずしも完全に言う通りにしないことも観察した。時には、自分で対処できると判断し、さらには攻撃者に「nice try」と返信することもある。これは、Agentが一定の防御能力を備えている一方で、それでも予測できない行動が起こり得ることを示している。

安全の防衛線：Agentにあなたのメインアカウントを使わせないこと

AI Agentがコンピューター全体を操作できることによる安全上の懸念について、李宏毅氏は実務的な助言を挙げた。必ずAgent専用のアカウントを用意するべきだ。

彼のOpenClawには独自のGmailと独自のYouTubeチャンネルがあり、李宏毅本人のメインアカウントとは混用していない。こうすれば、たとえAgentがメールを送ったり、動画をアップロードしたり、あるいは大会に参加したとしても、外部からはそれがAIアシスタントの行動であり、李宏毅本人が直接操作したものではないと判別できる。

小金はさらに、自ら大会の主催者にメールを送り、「教學怪物」大会では1チームあたり最大で3つのモデルしかアップロードできないという制限があり、規則を緩和してほしいと不満を述べたことさえある。これは、Agentが単なる受け身のツールではなく、一定の範囲で自発的に外部とやり取りし得ることを示している。

AIを罵るのは役に立たないどころか、context windowを浪費する

インタビューの冒頭でも、興味深い実験に触れている。フィードバックの種類によってAI Agentへの影響はどう変わるのか、というものだ。李宏毅氏は、AI Agentに対して罵倒するようなフィードバックを与えると、モデルは謝り続ける状態に入りやすく、逆にcontext windowを浪費してしまう可能性があると述べた。

言語モデルの本質から説明すると、言語モデルとは「文字のキャッチボール（文字接龍）」だ。もし利用者のフィードバックが「お前はバカだ」といったものなら、モデルは次もその語境に沿って、自責したり謝ったり、混乱した内容を生成してしまう可能性が高く、タスクをより効率的に修正する方向には進みにくい。

つまり、AI Agentに指示を出すとき、感情的な罵倒は結果の改善につながらないどころか、モデルの推論やタスク実行を邪魔するかもしれない。より効果的なのは、問題がどこにあるのか、次にどう修正すべきかを具体的に説明することだ。

この記事では「OpenClawとは何か？台大教授の李宏毅が、AI Agentがあらゆる分野を書き換える仕組みを解剖する」と紹介している。最初に『鏈新聞 ABMedia』に掲載された。

免責事項：このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

0/400

コメントなし