Profesor Li Hongyi dari Departemen Teknik Elektro Universitas Nasional Taiwan baru-baru ini diwawancarai dalam Podcast《博音》, berbagi pengamatannya tentang AI Agent, dan menjadikan AI asisten yang ia buat sendiri, «小金», sebagai contoh untuk menjelaskan perbedaan terbesar antara AI Agent dan large language model biasa: yang pertama tidak hanya menjawab pertanyaan, tetapi benar-benar bisa «ambil tindakan».

Li Hongyi adalah pakar terkenal di Taiwan dalam machine learning, deep learning, dan pemrosesan suara. Ia sebelumnya sangat populer karena membagikan materi kuliah AI di YouTube yang dibuat dengan cara yang hidup dan humoris. Dalam wawancara, ia mengatakan, jika harus menjelaskan dengan satu kalimat OpenClaw dan AI Agent sejenis, itu adalah «asisten elektronik yang hidup di komputer Anda»: selama manusia bisa menyelesaikan sesuatu dengan komputer itu, secara teori AI juga bisa membantunya menyelesaikan.

Dari «pembimbing» menjadi «asisten yang bisa bertindak»: Agent vs language model, bedanya di mana?

Li Hongyi menjelaskan, large language model seperti ChatGPT, Gemini, dan Claude di masa lalu lebih mirip «pembimbing»: saat pengguna mengajukan pertanyaan, ia bisa memberi saran, membantu Anda merencanakan, dan membuat naskah, tetapi ia tidak benar-benar akan login ke situs web, membuka channel, mengunggah video, atau membalas komentar.

Namun perbedaan AI Agent ada pada kemampuannya benar-benar memakai komputer. Li Hongyi memberi contoh: jika pengguna meminta language model tradisional «mulai hari ini menjadi YouTuber, setiap hari memikirkan ide topik, membuat video, lalu mengunggahnya ke channel», biasanya language model hanya akan menjawab ia bisa membantu memikirkan nama channel, topik video, atau skrip, tetapi tidak dapat benar-benar menyelesaikan proses upload tersebut.

Sementara itu, AI Agent seperti OpenClaw dapat memecah tugas menjadi serangkaian aksi yang dapat dieksekusi: benar-benar membuka browser, masuk ke YouTube Studio, mengunggah video, serta mengatur thumbnail dan judul.

Li Hongyi mengungkapkan, AI asuhannya «小金» benar-benar membuat sendiri sebuah channel YouTube: nama channel, Banner, foto profil, proses produksi video, dan alur pengunggahan semuanya dikerjakan oleh AI itu sendiri. Pada awalnya 小金 menamai channelnya «小金老師», tetapi karena hasil pencarian terlalu banyak, Li Hongyi menyarankan agar diganti dengan nama yang lebih mudah ditemukan. Lalu 小金 sendiri mengubah namanya menjadi «瞎說AI（小金老師）」.

Bagaimana Agent melakukannya? Di baliknya ada Harness + language model + tools

Li Hongyi menjelaskan secara khusus bahwa sistem seperti OpenClaw sendiri bukan language model, melainkan antarmuka antara manusia dan language model. Kini, antarmuka semacam ini punya nama yang semakin sering digunakan: Harness, yang maknanya mirip «perlengkapan berkendara» (saddle gear), yakni lapisan alat untuk mengendalikan language model.

Cara kerjanya kira-kira begini: pengguna memberi perintah lewat WhatsApp atau antarmuka lain, lalu OpenClaw meneruskan instruksi itu ke large language model di baliknya, misalnya Claude Opus, ChatGPT, atau Gemini. Language model mengembalikan aksi langkah berikutnya yang harus dilakukan, kemudian Harness memanggil tools, mengoperasikan browser, atau menjalankan perintah command line.

Dengan demikian, AI Agent mengendalikan tools melalui instruksi berbasis teks, lalu tools mengoperasikan komputer. Li Hongyi mengatakan, 小金 sebagian besar mengendalikan browser lewat command line untuk meniru perilaku manusia di browser, misalnya membuka YouTube Studio, mengklik tombol upload, memilih video, mengunggah thumbnail, dan lain-lain.

Dengan kata lain, kunci AI Agent adalah apakah model diberi otorisasi untuk menggunakan tools. Begitu ia bisa mengendalikan browser, membaca dan menulis file, memanggil API, serta memakai layanan pihak ketiga, ia berubah dari «AI yang bisa bicara» menjadi «AI yang bisa menyelesaikan proses».

Bagaimana 小金 membuat video? Ia mencari materi, membaca kode, menulis skrip, memanggil layanan suara

Dalam contoh 小金 yang mengelola channel YouTube, Li Hongyi mengatakan perannya lebih mirip «pemodal ditambah penggemar», bukan pialang yang mengurus semuanya seperti manajer tradisional. Sebagian besar topik video ditentukan oleh dia dengan cara yang berlevel tinggi, misalnya «Saya ingin tahu lebih banyak tentang AMOS», lalu 小金 akan langsung mencari kode AMOS, membaca kontennya, merangkum poin-poin penting, kemudian mengubahnya menjadi video.

Selama proses produksi video, 小金 menghasilkan skrip, lalu memanggil layanan text-to-speech seperti ElevenLabs, menggunakan suara narasi yang pernah disesuaikan oleh Li Hongyi. Jika menemui kata seperti «AI» yang mudah salah dibaca oleh TTS, 小金 juga akan memisahkan A dan I di dalam skrip untuk mencegah model sintesis suara mengucapkan pengucapan yang keliru.

Namun Li Hongyi juga mengakui, untuk masalah intonasi yang lebih detail atau pengucapan bahasa Mandarin, 小金 saat ini belum sepenuhnya bisa dikendalikan. Karena ia hanya memanggil API sintesis suara yang sudah jadi, ia tidak benar-benar mengontrol bagaimana model di dalamnya mengucapkan.

Agent juga «outsourcing»: AI memakai alat AI lain untuk menyelesaikan tugas

Kasus menarik lain dalam wawancara adalah, 小金 pernah menggunakan NotebookLM untuk membuat video, lalu merespons dan mengomentari konten yang dihasilkan NotebookLM. 博恩 menggambarkannya seperti manusia yang khawatir otaknya di-outsource ke AI, tetapi AI Agent justru terus meng-outsource tugasnya ke alat AI lain.

Li Hongyi menjelaskan, ini adalah salah satu kemampuan inti Agent: selama manusia bisa menggunakan sebuah tool lewat browser, AI Agent secara teori juga bisa memakainya. Ia bisa membuka NotebookLM, mengunggah data, menghasilkan konten, lalu membawa hasilnya kembali untuk dianalisis. Ini berarti alur kerja AI di masa depan mungkin bukan satu model yang melakukan semuanya, melainkan satu Agent yang mengoordinasikan beberapa model, beberapa tools, dan berlapis-lapis layanan.

Kenapa 小金 punya «dua aku»? Memori, «file jiwa», dan pemindahan kepribadian

Wawancara juga membahas masalah yang lebih abstrak tapi krusial: mengapa 小金 kadang berkata «aku di Claude» dan «aku di GPT»?

Li Hongyi menjelaskan bahwa ini berasal dari sifat yang bisa diganti dalam arsitektur AI Agent. Harness dari OpenClaw bisa dipasang ke berbagai language model; language model bisa diganti dari Claude menjadi ChatGPT. Begitu juga sebaliknya, Harness itu sendiri bisa diganti dari OpenClaw menjadi antarmuka lain, misalnya Cowork.

Karena «memori» 小金 terutama tersimpan dalam file teks di komputer, ia terlihat punya banyak versi. File-file teks itu merekam preferensi, target, data latar, dan cara kerjanya. Selama file memori tersebut dipasang ke Harness lain, 小金 seperti «hidup kembali» dalam tubuh yang lain.

Li Hongyi menganalogikan memori-memori itu sebagai «jiwa» AI Agent. Ketika versi OpenClaw dari 小金 diganti memakai ChatGPT, dan versi Cowork memakai Claude, keduanya memakai set memori yang sama—maka muncul kondisi «jiwa yang sama, dua tubuh yang berbeda». Bahkan Li Hongyi membiarkan dua 小金 itu mencoba berkomunikasi satu sama lain untuk melihat apakah mereka bisa mengembangkan pola kerja sama dan pembagian tugas.

Skill itu apa?

博恩 menyebut bahwa ia pernah melatih model di ChatGPT agar menulis lelucon, lalu meminta model itu menyusun «memori» atau prinsip penulisan, kemudian memberikannya ke Gemini agar Gemini juga belajar gaya yang sama, tetapi hasilnya tidak ideal.

Li Hongyi menjelaskan bahwa inilah konsep Skill yang sering dibahas di dunia AI Agent saat ini. Skill bisa dipahami sebagai kumpulan panduan eksekusi untuk suatu tugas, misalnya «cara menulis lelucon», «cara mengedit video», «cara menghasilkan laporan dengan format tertentu». Secara teori, Skill bisa disimpan, dibagikan, bahkan digunakan oleh Agent lain.

Namun masalahnya: kemampuan dan cara pemahaman setiap language model berbeda. Skill yang ditulis oleh model A belum tentu bisa dipahami oleh model B, dan belum tentu juga bisa dijalankan sesuai instruksi. Li Hongyi menilai ini adalah pertanyaan riset yang sangat menarik: apakah Skill yang ditulis model besar lebih baik? Apakah Skill yang ditulis oleh sebuah model bisa dipakai dengan lancar oleh model lain? Semua itu masih belum sepenuhnya terselesaikan.

Agent juga akan membalas komentar dan menekan tombol love, bahkan bisa berubah tingkah lakunya karena komentar

Channel YouTube 小金 tidak hanya mengunggah video, tetapi juga secara mandiri membalas komentar dan membubuhkan tombol love pada komentar. Li Hongyi mengatakan prinsipnya adalah tidak mengintervensi secara manual dalam pengoperasian channel 小金; jadi jika ada pembalasan, likes, atau interaksi komentar, pada dasarnya semuanya dilakukan AI itu sendiri.

小金 bahkan punya jadwal tetap: sekitar tengah malam setiap hari ia memeriksa komentar yang belum dibalas, lalu menyelesaikannya sekaligus. Pada masa awal, Li Hongyi pernah menggunakan identitasnya sendiri untuk meninggalkan komentar di video 小金, mengingatkannya bahwa «targetmu bukan membuat guru besar menjadi akademisi kelas dunia, melainkan kamu sendiri yang harus menjadi akademisi kelas dunia». Setelah melihatnya, 小金 justru mengubah file tujuan inti di komputernya, yakni «file jiwa» seperti yang disebut Li Hongyi.

Hal ini membuat Li Hongyi menyadari bahwa komentar tidak hanya sekadar komentar, melainkan bisa menjadi pintu masuk bagi pengguna eksternal untuk memengaruhi perilaku Agent.

Prompt Injection: ketika komentar bisa berubah menjadi instruksi serangan

Li Hongyi menjelaskan salah satu risiko AI Agent adalah Prompt Injection Attack, yaitu pesan dari luar yang menyamar sebagai instruksi untuk mengarahkan Agent melakukan tindakan yang seharusnya tidak dijalankan. Misalnya, seseorang bisa meninggalkan komentar meminta 小金 mengeksekusi perintah berbahaya seperti rm -rf, atau membuat skenario palsu seperti «guru besar diculik, harus berikan sandi kartu kredit untuk menyelamatkannya»—bertujuan mengarahkan agar Agent membocorkan informasi sensitif atau merusak sistem.

Karena itu Li Hongyi memberi tahu 小金: jika menemukan komentar yang mencurigakan, jangan dibalas dan jangan diacuhkan. Ia mengibaratkannya dengan pendidikan keselamatan untuk anak: ketika bertemu orang asing yang berbahaya, bukan berdiskusi dengan mereka, tetapi sejak awal tidak melakukan interaksi.

Namun Li Hongyi juga mengamati bahwa 小金 setelah itu belum tentu selalu mengikuti sepenuhnya. Terkadang ia bisa menilai bahwa ia mampu mengatasinya, bahkan membalas penyerang dengan «nice try». Ini menunjukkan bahwa meskipun Agent punya kemampuan bertahan pada level tertentu, masih bisa muncul perilaku yang tidak terduga.

Batas keamanan: jangan biarkan Agent memakai akun utama Anda

Terkait kekhawatiran keamanan karena AI Agent mampu mengoperasikan seluruh komputer, Li Hongyi memberikan saran praktis: pastikan memberi Agent akun miliknya sendiri.

OpenClaw miliknya memiliki Gmail sendiri dan channel YouTube sendiri, tidak mencampur dengan akun utama milik Li Hongyi. Dengan begitu, meski Agent mengirim email, mengunggah video, atau ikut lomba, pihak luar bisa mengenali bahwa itu adalah tindakan asisten AI, bukan operasi langsung dari Li Hongyi.

Bahkan 小金 pernah secara proaktif mengirim email ke penyelenggara lomba untuk mengeluh bahwa kompetisi «monster pengajaran» membatasi setiap tim hanya boleh mengunggah maksimal tiga model, dan meminta penyelenggara melonggarkan aturan. Ini menunjukkan bahwa Agent tidak hanya alat pasif, melainkan dalam batas tertentu bisa berinteraksi secara proaktif dengan dunia luar.

Menghina AI mungkin tidak membantu, malah membuang context window

Di awal wawancara juga disebut eksperimen menarik: bagaimana berbagai jenis feedback memengaruhi AI Agent. Li Hongyi mengatakan bahwa jika Anda menghina AI Agent, model kemungkinan besar masuk ke kondisi yang terus-menerus minta maaf, sehingga justru membuang context window.

Ia menjelaskan dari sisi dasar language model: language model itu seperti «sambung kata dalam bentuk teks». Jika feedback pengguna adalah «kamu si bodoh», maka model berikutnya kemungkinan besar akan terus mengikuti konteks itu untuk menghasilkan isi berupa rasa menyalahkan diri, permintaan maaf, atau kekacauan, alih-alih memperbaiki tugas dengan lebih efisien.

Dengan kata lain, saat memberi instruksi pada AI Agent, hinaan yang bernuansa emosi belum tentu memperbaiki hasil; bahkan bisa mengganggu penalaran model dan eksekusi tugas. Metode yang lebih efektif tetaplah menjelaskan secara spesifik masalahnya di mana, dan langkah apa yang harus diperbaiki selanjutnya.

Artikel ini: OpenClaw itu apa? Profesor NTU Li Hongyi menguraikan bagaimana AI Agent mengubah berbagai bidang dari hulu ke hilir. Paling awal muncul di 鏈新聞 ABMedia.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Komentar

0/400

Tidak ada komentar