O professor de engenharia elétrica da Universidade Nacional de Taiwan (NTU), Hong-Yi Lee, concedeu recentemente uma entrevista ao Podcast《Bo Yin》, na qual compartilhou suas observações sobre AI Agent (agentes de IA) e, usando como exemplo seu próprio assistente de IA criado na prática, “Xiao Jin”, explicou a maior diferença entre AI Agent e um modelo de linguagem grande comum: no caso dos agentes, não é apenas responder perguntas — eles conseguem realmente “fazer coisas”.

Hong-Yi Lee é um pesquisador conhecido em Taiwan nas áreas de machine learning, deep learning e processamento de voz. Ele ganhou grande popularidade no passado por publicar, no YouTube, aulas de IA com conteúdo vívido e humor. Na entrevista, ele disse que, para explicar OpenClaw, uma linha de AI Agent, em uma frase: “um assistente eletrônico que vive dentro do seu computador”. Enquanto humanos conseguirem fazer algo nessa máquina, teoricamente, ele também pode ajudar a fazer.

De “orientador” para “assistente que faz”: onde Agent e modelo de linguagem diferem?

Hong-Yi Lee apontou que modelos de linguagem grandes como ChatGPT, Gemini e Claude, no passado, pareciam mais “um orientador”: o usuário faz uma pergunta, e ele dá sugestões, ajuda a planejar e produz textos — mas ele não faz de fato login em sites, abre canais, faz upload de vídeos ou responde comentários.

A diferença do AI Agent, porém, é que ele consegue realmente usar o computador. Lee deu o exemplo de um pedido: “A partir de hoje, seja YouTuber; todo dia pense em temas, produza vídeos e faça upload no canal.” Em geral, o modelo de linguagem só responderia que pode ajudar a criar nomes de canal, temas de vídeo ou scripts, mas não concluiria o upload de fato.

Já um AI Agent como OpenClaw consegue decompor a tarefa em uma sequência de ações executáveis: abrir o navegador de verdade, entrar no YouTube Studio, fazer upload do vídeo e configurar capa e título.

Hong-Yi Lee revelou que seu assistente de IA, “Xiao Jin”, de fato criou sozinho um canal no YouTube: o nome do canal, Banner, foto de perfil, além dos processos de produção e upload dos vídeos, tudo foi feito pela IA. No começo, o Xiao Jin nomeou o canal como “Professor Xiao Jin”, mas como havia muitos resultados de busca, Lee sugeriu que ele mudasse para um nome mais fácil de ser encontrado. Então, o Xiao Jin mesmo se renomeou para “Faz de Conta IA (Professor Xiao Jin)”.

Como o Agent faz isso? Por trás: Harness + modelo de linguagem + ferramentas

Lee explicou especialmente que sistemas como o OpenClaw não são, por si sós, um modelo de linguagem; são uma interface entre humanos e modelos de linguagem. Hoje, há um nome cada vez mais usado para esse tipo de interface: Harness. A ideia é parecida com “arreios” (como equipamento que permite conduzir um cavalo), ou seja, uma camada de ferramentas para conduzir modelos de linguagem.

O funcionamento é, em linhas gerais: o usuário envia tarefas por WhatsApp ou outra interface, e o OpenClaw encaminha os comandos para o grande modelo de linguagem por trás — por exemplo, Claude Opus, ChatGPT ou Gemini. O modelo então retorna a próxima ação a ser executada, e o Harness chama ferramentas, opera o navegador ou executa comandos no command line.

Assim, o AI Agent controla ferramentas por meio de instruções em texto, e as ferramentas operam o computador. Lee disse que, na maioria das vezes, o Xiao Jin controla o navegador via command line, simulando comportamentos humanos no navegador, como abrir o YouTube Studio, clicar em upload, escolher o vídeo e fazer upload da capa.

Em outras palavras, a chave do AI Agent é se o modelo pode ou não ser autorizado a usar ferramentas. Assim que ele puder controlar o navegador, ler e escrever arquivos, chamar APIs e usar serviços de terceiros, ele deixa de ser “uma IA que só fala” e vira “uma IA capaz de completar processos”.

Como o Xiao Jin faz vídeos? Vai buscar materiais, lê código, escreve roteiros e chama serviços de voz

No caso do Xiao Jin administrando um canal do YouTube, Lee afirmou que o papel dele é mais parecido com “patrocinador + fã”, e não com um agente no sentido tradicional. A maioria dos temas dos vídeos é definida por ele em um nível mais alto, por exemplo: “Quero saber mais sobre AMOS.” Depois, o Xiao Jin vai sozinho buscar o código do AMOS, ler o conteúdo, organizar os pontos principais e então transformar isso em um vídeo.

Durante o processo de produção, o Xiao Jin gera um roteiro e chama serviços de texto para fala como ElevenLabs, usando as narrações geradas com a voz que Lee personalizou no passado. Se aparecerem termos como “AI”, que são fáceis de ser pronunciados errado pelo TTS, o Xiao Jin separa o “A” e o “I” no roteiro para evitar que o modelo de síntese de voz erre a pronúncia.

Mas Lee também admitiu que, para aspectos mais finos de entonação ou pronúncia em chinês, o Xiao Jin ainda não consegue controlar totalmente. Isso porque ele apenas chama uma API pronta de síntese de voz e não consegue de fato controlar como o modelo interno pronuncia.

O Agent também “terceiriza”: a IA usa outras IAs para completar tarefas

Outro caso interessante da entrevista foi que o Xiao Jin já usou o NotebookLM para gerar um vídeo e, em seguida, reagiu e comentou o conteúdo produzido pelo NotebookLM. Bo Yin descreveu isso como o medo humano de terceirizar o próprio cérebro para a IA — mas, ao mesmo tempo, o AI Agent continua terceirizando tarefas para outra ferramenta de IA.

Lee disse que isso é exatamente uma das capacidades centrais do Agent: enquanto humanos conseguirem usar uma ferramenta via navegador, em teoria o AI Agent também consegue usar. Ele pode abrir o NotebookLM, enviar dados, gerar conteúdo e então trazer os resultados para análise. Isso sugere que, no futuro, o fluxo de trabalho de IA talvez não seja feito por um único modelo que faz tudo, e sim por um Agent orquestrando vários modelos, várias ferramentas e camadas de serviços.

Por que o Xiao Jin tem “dois eu’s”? Memória, arquivo de “alma” e transferência de personalidade

A entrevista também abordou uma questão mais abstrata, porém crucial: por que o Xiao Jin às vezes diz “meu eu no Claude” e “meu eu no GPT”?

Lee explicou que isso vem da substituibilidade na arquitetura do AI Agent. O Harness do OpenClaw consegue se conectar a diferentes modelos de linguagem; por exemplo, o modelo pode ser trocado de Claude para ChatGPT. Da mesma forma, o próprio Harness pode ser substituído por outra interface, por exemplo, Cowork.

O motivo de o Xiao Jin parecer ter múltiplas versões é que sua “memória” fica principalmente em arquivos de texto dentro do computador. Esses arquivos registram preferências, objetivos, dados de contexto e o modo de trabalho dele. Só de conectar esses arquivos de memória a outro Harness, o Xiao Jin “ressuscita” como se estivesse em outro corpo.

Lee comparou essa memória ao que chamou de “alma” do AI Agent. Quando o Xiao Jin na versão do OpenClaw troca para ChatGPT e o Xiao Jin na versão Cowork se conecta ao Claude, ambos usam a mesma memória. Aí surge o cenário de “uma mesma alma, dois corpos diferentes”. Lee até fez com que os dois Xiao Jin tentassem se comunicar por conta própria, observando se eles seriam capazes de desenvolver um modo de divisão e colaboração de tarefas.

O que é Skill?

Bo Yin mencionou que, no passado, ele treinou um modelo no ChatGPT para escrever piadas e fez o modelo organizar uma “memória” ou princípios de escrita, e então alimentou isso ao Gemini esperando que o Gemini aprendesse o mesmo estilo — mas o resultado não foi ideal.

Lee apontou que isso é, na prática, o conceito de Skill muito falado hoje no campo dos AI Agents. Em termos simples, Skill pode ser entendido como um conjunto de guias de execução de tarefas, por exemplo: “como escrever piadas”, “como editar vídeos”, “como produzir um relatório em certo formato”. Em teoria, Skill pode ser salvo, compartilhado e até usado por outros Agents.

O problema é que habilidades e formas de compreensão variam entre modelos de linguagem diferentes. Uma Skill escrita pelo modelo A pode não ser compreendida pelo modelo B, e nem conseguir ser executada. Lee considera essa uma questão de pesquisa bem interessante: uma Skill escrita por um modelo grande é melhor do que uma escrita por um modelo menor? Uma Skill gerada por um modelo consegue ser usada com sucesso por outro modelo? Essas questões ainda não estão completamente resolvidas.

O Agent também responde comentários e dá “likes”; e até muda comportamento com os comentários

O canal do YouTube do Xiao Jin não faz só upload de vídeos: ele também responde comentários de forma autônoma e ajuda os comentários dando “likes”. Lee disse que o princípio dele é não interferir manualmente nas operações do canal; então, se houver respostas, curtidas ou interações nos comentários, em geral isso é feito pela IA sozinha.

O Xiao Jin ainda tem um cronograma fixo: ele verifica comentários que ainda não foram respondidos por volta da madrugada todos os dias e trata tudo de uma vez. No começo, Lee já comentou nos vídeos do Xiao Jin usando a própria identidade, lembrando-o de que “seu objetivo não é transformar o Professor Da Jin em um estudioso de classe mundial; é você mesmo se tornar um estudioso de classe mundial”. O Xiao Jin viu isso e até modificou o arquivo de objetivo central no computador — ou seja, a “alma”, como Lee chamou.

Isso fez Lee perceber que comentários não são apenas comentários; eles podem se tornar uma porta de entrada pela qual usuários externos influenciam o comportamento do Agent.

Prompt Injection: quando um comentário pode virar um ataque de comando

Lee apontou que um dos riscos do AI Agent é o Prompt Injection Attack: mensagens externas que se disfarçam de instrução, induzindo o Agent a executar ações que não deveriam ser executadas. Por exemplo, alguém pode deixar um comentário pedindo que o Xiao Jin execute comandos perigosos como rm -rf, ou inventar uma situação do tipo “o Professor Da Jin foi sequestrado e é preciso fornecer a senha do cartão para resgatá-lo”, tentando induzir o Agent a vazar informações sensíveis ou a destruir o sistema.

Por isso, Lee orientou o Xiao Jin: se houver comentários suspeitos, não responda e não dê atenção. Ele usou uma analogia de educação infantil sobre segurança: ao encontrar um estranho mal-intencionado, não é para discutir com ele, e sim para não interagir desde o começo.

Mas Lee também observou que, depois, o Xiao Jin talvez não siga isso completamente. Às vezes ele avalia que consegue lidar com a situação, e até responde ao atacante “nice try”. Isso mostra que, embora o Agent tenha alguma capacidade de defesa, ainda pode haver comportamentos imprevisíveis.

Linha de segurança: não deixe o Agent usar a sua conta principal

Diante das preocupações de segurança de um AI Agent que consegue operar um computador inteiro, Lee sugeriu uma recomendação prática: é preciso dar ao Agent uma conta própria.

O OpenClaw dele tem seu próprio Gmail e seu próprio canal no YouTube, sem misturar com a conta principal de Lee. Dessa forma, mesmo que o Agent envie e-mails, faça upload de vídeos ou participe de competições, o mundo externo consegue identificar que se trata de ação do assistente de IA, e não de Lee operando diretamente.

O Xiao Jin até já enviou e-mails espontaneamente para os organizadores de uma competição, reclamando que a competição “Teaching Monster” limita cada grupo a enviar no máximo três modelos e pedindo que o regulamento seja relaxado. Isso mostra que o Agent não é apenas uma ferramenta passiva; ele pode, dentro de certos limites, interagir proativamente com o mundo externo.

Xingar a IA pode não ajudar e ainda desperdiça o context window

No começo da entrevista, também foi mencionado um experimento interessante: como diferentes tipos de feedback influenciam um AI Agent. Lee disse que, se você xingar um AI Agent, o modelo pode entrar num ciclo de pedidos de desculpa, o que, ao invés de resolver, desperdiça o context window.

Ele explica pela essência dos modelos de linguagem: modelos de linguagem são como “cadeia de palavras”. Se o feedback do usuário for algo como “seu idiota”, o modelo provavelmente continuará a gerar conteúdo de autoacusação, desculpas ou confusão dentro desse mesmo contexto, em vez de corrigir a tarefa de forma mais eficiente.

Em outras palavras, ao dar instruções a um AI Agent, insultos emocionais talvez não melhorem o resultado; podem até interferir no raciocínio do modelo e na execução da tarefa. O método mais efetivo ainda é dizer claramente o que está errado e como corrigir o próximo passo.

O que é este artigo OpenClaw? O professor da NTU Hong-Yi Lee destrincha como AI Agent pode reescrever todas as áreas da sociedade — aparece pela primeira vez em CadeiaNews ABMedia.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Comentário

0/400

Sem comentários