A amarga despertar do Agente: a inteligência está a passar da linguagem para a experiência

Autor |

Em 2019, Richard Sutton, o “pai da aprendizagem por reforço” da IA, escreveu um artigo de seis páginas que mais tarde influenciou toda a comunidade de inteligência artificial.

O artigo, intitulado “Lições Amargas”, tem apenas uma frase no seu núcleo:

Os humanos passaram décadas a forçar conhecimento de domínio na IA, apenas para perderem para “deixar a máquina tentar cometer erros sozinha” todas as vezes.

Este é o caso do xadrez, Go, reconhecimento de fala e visão computacional. Esses conhecimentos prévios cuidadosamente desenhados, funcionalidades artificiais e regras de especialistas são, em última análise, esmagados por computação em grande escala e auto-jogo.

Sutton é um reconhecido fundador do campo da aprendizagem por reforço. Passou metade da vida a estudar uma coisa:

A inteligência não é desenhada, é forçada pelo ambiente. A interação contínua dos agentes com o ambiente é o único caminho fiável para tetos de inteligência mais elevados.

Após a publicação do artigo, a reação da comunidade académica foi quase polarizada. Um grupo de investigadores que trabalha há muitos anos em engenharia de características e sistemas especialistas é forçado a reexaminar a importância a longo prazo do seu trabalho. A controvérsia ainda não diminuiu, mas o julgamento de Sutton tem sido repetidamente verificado nos sete anos seguintes.

Olhando para os sete anos da onda do Agente no início de 2026, este julgamento está a ser cumprido de forma inesperada na indústria da IA – mas a maioria das pessoas ainda não se apercebeu disso.

Discutir Agente, só metade da conversa

Desde a febre do Skill liderada por Claude à colaboração Cowork e à “febre da criação de camarões” em todo o lado atualmente, Agente tornou-se a palavra mais quente na indústria da IA atualmente.

No entanto, perante as crescentes capacidades do Agent, a questão em que a indústria está altamente focada já não se limita à questão do “o que pode ser feito”, mas sim à contínua abertura de permissões e à ecologia cada vez mais rica dos plug-ins, quão vasto pode ser o seu âmbito de aplicação e como irá remodelar as relações de produção e impulsionar mudanças na estrutura económica.

De cada conferência de imprensa, cada análise de produto a cada tweet da indústria, o cerne da questão torna-se: Que tipo de grande reorganização empresarial irão os Agentes com maior autonomia e autoridade de sistema trazer na camada de aplicação, e que indústrias e ligações serão destruídas pela onda dos Agentes?

Houve até avisos e previsões mais agudas na indústria: à medida que o âmbito da substituição de agentes continua a expandir-se e a profundidade da substituição se aprofunda, riscos como o desaparecimento de empregos em grande escala, a intensificação da diferenciação de rendimentos e a diminuição da procura efetiva estão a acumular-se, o que pode levar a problemas estruturais de emprego e riscos económicos em cadeia.

Estas narrativas são valiosas e todas colocam o mesmo tipo de questões:Como ferramenta, para onde irá o Agente na remodelação da sociedade humana ao nível da aplicação?

Mas parece que poucas pessoas estão a fazer outra pergunta:

Que mudanças qualitativas trará a popularização acelerada e em larga escala do Agent para a própria IA ao nível do modelo?

Esta é a pergunta que realmente importa do ponto de vista da Sutton.

Beco sem saída do chatbot

Antes de compreender o valor profundo do Agent, é necessário ver claramente em que tipo de beco sem saída entrou o seu antecessor, o Chatbot.

No início de 2023, o número de utilizadores do ChatGPT ultrapassou os 100 milhões, estabelecendo um recorde de crescimento mais rápido na história da Internet de consumo. Os gestores de produto em todo o mundo acordam de um sonho e enfiam freneticamente diálogos nos seus produtos. Bots de atendimento ao cliente, respostas de perguntas e respostas, assistentes de escrita, preenchimento de código – tudo se torna uma “interface de chat”.

Mas, no final de 2024, surgiu um facto embaraçoso: uma diminuição significativa na frequência de utilização depois de a novidade inicial ter desaparecido. Vários meios de comunicação e analistas relataram uma desaceleração no crescimento da atividade dos utilizadores do ChatGPT.

Os utilizadores percebem que não sabem o que fazer com esta caixa de diálogo e, ocasionalmente, usam-na para escrever um email, alterar a redação ou fazer uma pergunta, mas nunca desenvolveram um hábito de uso estável.

A razão é simples:O modo de interação do Chatbot é uma pergunta e uma resposta, enquanto o verdadeiro fluxo de trabalho humano é de múltiplos passos, multi-ferramentas e múltiplos julgamentos.

Deixe o chatbot fazer a sua pesquisa de mercado e ele dar-lhe-á um artigo com boa aparência. Mas não sei se a fonte de dados é fiável, se falha concorrentes chave e se a cadeia de raciocínio por trás da conclusão resiste ao escrutínio. Apesar de ter obtido um resultado, perdi todo o processo.

O que é ainda mais fatal é que todas as conversas do chatbot são isoladas. Não se lembra das preferências da semana passada, não conhece o contexto do projeto, não compreende a lógica de negócio da organização. Cada vez que abro a caixa de diálogo, estou a reintroduzir-me numa amnésia educada.

É por isso que toda a indústria está a recorrer coletivamente ao Agente a partir da segunda metade de 2024, pois o teto dos Chatbots está claramente lá.

Mas há uma dimensão que quase toda a gente ignora: o teto do Chatbot não é apenas o teto da forma do produto, mas também o teto da evolução do modelo.

A interação prática é fundamental

A filosofia de aprendizagem por reforço de Sutton tem uma lógica central muito clara: o limite superior dos dados estáticos é o limite do mundo conhecido.

Não importa o tamanho do corpus ou o número de parâmetros, a fronteira de capacidade de um modelo treinado com um conjunto de dados fixo é a fronteira do mundo representada por esse lote de dados.

Ao fim de 24-25 anos, esta fronteira já era visível a olho nu.

A equipa da Epoch AI publicou uma análise amplamente citada que prevê que os dados de texto de alta qualidade na internet serão largamente esgotados nos próximos anos ao ritmo atual de consumo. A indústria começou a falar de um “data wall”, um muro construído pelos limites físicos da quantidade total de informação.

A resposta fornecida pelo Chatbot é: da conversa do utilizador. No entanto, a densidade de informação das conversas dos utilizadores com chatbots é extremamente baixa.

“Ajuda-me a mudar este email para ser mais formal”, “Escreve uma ordenação rápida em Python”, “Qual é o PIB da China” Estas interações contêm apenas um mapeamento superficial das necessidades humanas.

O que o modelo pode aprender com estas conversas não é essencialmente diferente do que aprende ao extrair um lote de novos textos da Internet. São todas leis estatísticas dos padrões linguísticos, e todas carecem de uma coisa: estrutura causal.

A diferença entre agentes é que, no processo de conclusão de tarefas, um corpus estático produzirá algo que nunca poderá fornecer: a trajetória decisória da estrutura causal.

Por exemplo, qual é o objetivo, que ações são tomadas, que feedback recebe o ambiente, onde as coisas correram mal e como as corrigir.

Use um exemplo específico para ilustrar a diferença. Um utilizador disse ao chatbot: “Ajude-me a organizar uma viagem de negócios de Pequim para Xangai na próxima quarta-feira.” O chatbot deu diretamente um plano de viagem, e a interação terminou. O modelo aprende muito pouco, não sabe se o arranjo é razoável, se o utilizador está satisfeito ou se a sua resposta realmente resolve o problema.

Se um agente for solicitado a realizar a mesma tarefa, seguirá um conjunto completo de fluxos de trabalho autónomos: primeiro compreender as necessidades de viagem do utilizador, consultar as preferências anteriores do utilizador, mudar automaticamente para voos alternativos ao ligar para a interface de voos e depois selecionar hotéis adequados de acordo com os padrões de viagem da empresa para gerar um primeiro rencontro de itinerário. Quando o utilizador informa que o hotel está demasiado longe do local, o agente volta a selecionar os hotéis a uma distância a pé, corrige e apresenta a solução final.

Cada passo transporta um sinal causal claro. A falha da invocação da API indica ao modelo para reservar um plano de reserva, a preferência do utilizador diz ao modelo para memorizar os hábitos de utilização, e o feedback de modificação do utilizador indica ao modelo para otimizar iterativamente de acordo com as necessidades.

Os chatbots apenas fornecem respostas, enquanto os agentes completam as tarefas de forma autónoma e continuam a crescer através de tentativa e erro contínuos e correções.

A densidade de informação deste tipo de dados é muito maior do que a do simples web scraping. Não é um mapeamento da expressão da linguagem humana, mas sim um registo do jogo entre agentes e o mundo real.

Modelos treinados com este tipo de dados não adquirem mais conhecimento, mas sim capacidades de raciocínio e autocorreção mais fortes, que são as variáveis-chave que determinam o limite superior da capacidade dos grandes modelos.

Por outras palavras, o Agente é a interface para grandes modelos obterem combustível evolutivo do mundo exterior.

Sem esta interface, o limite superior das capacidades do modelo fica bloqueado nos limites dos dados estáticos.

Perseguir o limite superior ou empilhar interfaces?

Do final de 2024 a 2025, haverá uma bifurcação intrigante nas escolhas estratégicas dos grandes operadores de grande escala.

Modelos líderes como a OpenAI e a Google invadem a mesma parede com pressão máxima: perseguindo o teto das capacidades dos modelos.

No final de 2024, a OpenAI lançou o o3. No benchmark ARC-AGI desenhado por François Chollet, reconhecido como um teste difícil para medir a capacidade de raciocínio abstrato, o o3 alcançou resultados que impressionaram toda a indústria. A filosofia de design do ARC-AGI é precisamente anti-força bruta: Chollet sempre insistiu que o núcleo da inteligência é o raciocínio abstrato e a generalização em pequenas amostras, não a busca por força bruta. No entanto, o O3 utilizou cálculos de tempo de inferência em grande escala para alcançar pontuações que superaram largamente todos os sistemas anteriores neste teste.

Chollet foi cauteloso na sua resposta pública. Ele não negou os resultados do O3, mas apontou um facto chave: o sistema consome muito mais computação do que os humanos na resolução de problemas, e uma pontuação elevada não equivale a um avanço na inteligência geral.

O Google DeepMind continua a avançar nas capacidades de raciocínio multimodal na série Gemini 2.0.

Mas Anthropic escolheu um caminho diferente. Em outubro de 2024, a Anthropic lançou uma funcionalidade para Claude que na altura não parecia suficientemente atraente: Computer Use, que permite a Claude operar diretamente no ecrã do computador. Pode ver o que está no ecrã, mover o rato, clicar em botões e introduzir texto.

A experiência inicial do utilizador não foi incrível. Claude era lento a operar o computador, demorando muitas vezes a encontrar um botão, e ocasionalmente clicando no sítio errado. Os comentários nos meios de comunicação tecnológicos e nas plataformas sociais são geralmente ridicularizados com boa vontade – “Ver IA com um computador é como olhar para um velho que acabou de entrar em contacto com um computador”.

Mas o CEO da Anthropic, Dario Amodei, tem enfatizado repetidamente um julgamento em várias entrevistas:

O próximo avanço dos grandes modelos reside não só no número de parâmetros, mas também na forma como o modelo interage com o mundo.

Amodei foi vice-presidente de investigação na OpenAI durante quase cinco anos, experienciou o processo de evolução do GPT-2 para o GPT-3 e fundou a Anthropic após sair em 2021 com esta convicção.

No final de 2024, a Anthropic lançou o protocolo aberto Model Context Protocol (MCP), permitindo que modelos de IA se liguem a ferramentas externas e fontes de dados de forma padronizada.

Se o Computer Use dava mãos e pés ao Claude, o MCP dava-lhe um conjunto comum de terminações nervosas que expandiam exponencialmente a área de superfície do mundo real que podia tocar.

A principal narrativa do Claude em 2025 não é varrer a lista num determinado benchmark, mas sim a implementação de engenharia das capacidades do Agente, incluindo a estabilidade de contextos longos, a fiabilidade de não perder a cadeia em tarefas de múltiplos passos e a flexibilidade da integração com ferramentas externas.

Está a perseguir um objetivo mais difícil de quantificar: trabalhar de forma contínua e fiável em tarefas reais.

Isso não parece suficientemente romântico. Mas toda a teoria de Sutton diz: este é precisamente o caminho para um teto intelectual mais elevado.

O trabalho é formação

Este é o fenómeno contra-intuitivo mais notável do último ano, mais ou menos. Quando os seus pares atacavam de frente o critério de capacidade, o uso em larga escala de Claude em cenários reais de agentes completou discretamente uma das previsões de Sutton:

Continua a acumular sinais de decisão de alta qualidade em interações do mundo real, que por sua vez se tornam o combustível para melhorar as capacidades do modelo.

O volante funciona assim: os utilizadores usam o Claude para tratar de tarefas reais, como automatizar dados CRM, completar aprovações de compras em vários sistemas, ajustar estratégias de marketing com base em dados em tempo real e concluir projetos complexos de programação com o Claude Code.

Cada sucesso e fracasso é um sinal; Cada fluxo de trabalho em múltiplas etapas tem uma trajetória de decisão com uma estrutura causal; O resultado de cada chamada de ferramenta é dizer ao modelo que “isto funciona, aquilo não”.

Estes sinais são dessensibilizados e refinados, o que afeta diretamente a profundidade de raciocínio e a capacidade de autocorreção do modelo.

Por outro lado, o modo Chatbot. Quantas das conversas massivas entre utilizadores e o ChatGPT podem melhorar significativamente as capacidades de raciocínio do modelo? Interações como “ajuda-me a escrever um poema sobre outono”, “escreve uma ordenação rápida em Python” e “quantas províncias existem na China”, por mais que sejam repetidas milhares de milhões de vezes, não contêm sinais para raciocínio causal. São previsões repetidas de padrões linguísticos, não incrementos de inteligência.

Esta é a diferença fundamental entre Agente e Chatbot ao nível da evolução do modelo: o Chatbot alimenta o modelo com a “sombra da linguagem”, e o Agente alimenta o modelo com o “osso da tomada de decisão”.

É exatamente disto que Sutton tem falado há décadas: não tentar educar ou desenhar inteligência diretamente, deixe-a crescer sozinha na sua interação com o ambiente.

A OpenAI mudou

A OpenAI não está alheia a este problema.

Há muito tempo, continuou a explorar a chamada de ferramentas e a execução de tarefas através de uma série de funções como Chamada de Funções, Assistentes e GPTs.

Mas o verdadeiro salto aconteceu em janeiro de 2025, quando a OpenAI lançou o Operator, que pode completar tarefas de forma autónoma no navegador, seguido pelo Deep Research, um sistema agente que pode realizar investigação em múltiplos passos de forma autónoma, recolher informação em vários sites e analisá-la de forma abrangente.

O foco estratégico da OpenAI está claramente a mudar do “diálogo” para a “ação”. Esta viragem é uma espécie de alinhamento implícito com a lógica de Sutton:De um sistema que corresponde a padrões em dados estáticos para um sistema que toma decisões e aprende num ambiente dinâmico.

Mas a OpenAI enfrenta um desafio único: a dependência do caminho. A grande maioria dos centenas de milhões de utilizadores do ChatGPT está habituada aos padrões de utilização do Chatbot – abrir uma caixa de diálogo, fazer uma pergunta e obter uma resposta.

Mudar estes utilizadores de perguntas e respostas para atribuir tarefas não é apenas uma questão de design de produto, mas também de modelação mental.

Uma coisa que os utilizadores precisam de aprender é contra-intuitiva:Não digas à IA como fazer, diz-lhe apenas o que queres.

Claude não teve o peso de um chatbot nacional como o ChatGPT desde o início. A sua base de utilizadores é mais inclinada para programadores e empresas, e estes utilizadores são naturalmente mais adaptáveis ao modo de interação dos agentes. O protocolo MCP da Anthropic está diretamente orientado para o ecossistema de programadores, permitindo que terceiros construam facilmente ligações de ferramentas para o Claude.

Isto cria uma diferença temporal subtil: enquanto a OpenAI continua a orientar uma enorme base de utilizadores do Chatbot ao Agente, o Claude já acumulou dados consideráveis de interação no cenário do agente.

No mundo da aprendizagem por reforço, a diferença horária é tudo.

A vantagem de dados do primeiro a mover-se é amplificada pelo efeito volante: agentes melhores→ mais desenvolvedores e utilizadores usam → mais dados de interação → modelos mais fortes → agentes melhores.

O limite superior não é ultrapassado

Existe um padrão recorrente na história que merece ser levado a sério pela indústria da IA: Deep Blue derrotou Kasparov não porque os engenheiros codificaram manualmente todos os lances humanos de xadrez, mas porque os seus algoritmos de pesquisa encontraram jogadas que os humanos nunca pensaram em avaliações massivas.

O verdadeiro avanço do AlphaGo não está na primeira versão de aprender os resultados humanos do xadrez, mas sim no AlphaGo Zero, uma versão que depende inteiramente do jogo próprio e não depende de quaisquer resultados de xadrez. Começou do zero, redescobriu o conhecimento de Go acumulado pelos humanos durante milhares de anos em poucos dias, e depois ultrapassou-o.

Nenhum dos modelos de linguagem de grandes dimensões para raciocínio matemático, geração de código e análise lógica foi cuidadosamente desenhado.

Ninguém escreveu “por favor, aprenda a resolver problemas de matemática” nos objetivos de treino, mas quando o tamanho do modelo e a escala dos dados ultrapassam um determinado ponto de viragem, estas capacidades surgem espontaneamente.

O limite superior de habilidade nunca foi ultrapassado por um ataque frontal. É forçado a sair no processo de interação contínua num ambiente suficientemente complexo.

Isto é o que Agent realmente significa para os modelos grandes: não só dá ao modelo “mãos e pés”, como também lhe dá uma arena para continuar a brincar com o mundo real.

O feedback e os jogos no mundo real são o motor da evolução.

Um sistema que nunca comete erros e não pode evoluir. Um sistema que só responde a perguntas, nunca toca no mundo real e nunca sabe onde reside a sua ignorância.

A verdadeira aprendizagem só começa quando o agente recorre à realidade, chama uma API, manipula um navegador, executa um fluxo de trabalho e é depois atingido pela realidade.

Ecos antigos

Um princípio semelhante à filosofia de aprendizagem por reforço de Sutton foi descoberto por economistas numa área completamente diferente há mais de meio século.

Em 1945, Friedrich Hayek publicou um artigo na American Economic Review intitulado “O Uso do Conhecimento na Sociedade”, que mais tarde foi considerado um dos artigos económicos mais importantes do século XX.

O seu argumento central é extremamente simples: nenhuma pessoa ou organização consegue dominar todo o conhecimento necessário para funcionar numa economia complexa. Não é que não consiga compreender por agora, mas**“Em princípio, é impossível”**。

Porque o conhecimento valioso é disperso, localizado, implícito e efémero.

Para a economia, não há design geral, nem plano global, nem cadeia de instruções de cima a baixo. Apenas a interação contínua de inúmeros indivíduos com o ambiente, além de um mecanismo que transmite sinais de feedback.

Esta descrição, substituir a economia por um agente e converter sinais de preço em sinais de recompensa, é a aprendizagem por reforço de Sutton.

Em 1988, com 89 anos, Hayek publicou o seu último livro importante, “Fatal Conceit”.

O próprio título é um argumento. Hayek usou um livro inteiro para demonstrar uma coisa: a ilusão intelectual mais perigosa dos seres humanos é pensar que podem desenhar um sistema melhor do que a ordem espontânea.

Hayek argumenta que não podemos conhecer antecipadamente todas as necessidades e todas as restrições de todas as pessoas em todos os momentos. A única coisa que pode “saber” estas coisas é o processo de permitir que todos interajam, tentando e errando, e ajustando o seu comportamento de acordo com sinais de feedback num ambiente real.

Hayek deu um nome a este processo: ordem espontânea, e esta filosofia é semelhante à formação ambiental de Sutton.

Hayek pode dizer que os planeadores forçam o conhecimento de especialistas no sistema económico e tentam substituir a regulação espontânea do mercado por design de topo, mas cada vez perdem para “deixar o indivíduo passar por tentativa e erro”.

Sutton pode dizer: Os investigadores de IA forçam o conhecimento do domínio em algoritmos e tentam substituir a aprendizagem autónoma da máquina por funcionalidades artificiais, mas cada vez perdem para “deixar a máquina fazer a sua própria tentativa e erro”.

A ideia fatal de Hayek é pensar que a razão humana desenhou um sistema melhor do que a ordem espontânea.

A amarga lição de Sutton é que os especialistas humanos podem ser mais inteligentes do que buscas em grande escala com simples pré-treino.

O conhecimento tácito de Polanyi

Se mais uma pessoa pudesse ser adicionada a este diálogo que atravessa o tempo, poderia ser o contemporâneo de Hayek, Michael Polanyi, um estudioso nascido na Hungria.

Polanyi propôs um conceito de grande alcance no seu livro de 1966, A Dimensão Silenciosa:

Conhecimento tácito, ou seja, as pessoas sabem mais do que podem dizer. As palavras originais são: “Sabemos mais do que conseguimos dizer.”

As pessoas sabem andar de bicicleta, mas não conseguem descrever com precisão cada movimento de equilíbrio em palavras. Um médico experiente consegue perceber o que está errado com apenas um raio-X, mas é difícil formalizar totalmente o seu processo de julgamento.

Este conceito atinge diretamente a linha vital do modelo anterior de Chatbot: o que os grandes modelos de linguagem aprendem com textos da Internet é apenas a parte do conhecimento que os humanos podem expressar em palavras – conhecimento explícito.

No entanto, existe um grande número de capacidades e julgamentos humanos no conhecimento tácito, que só pode ser refletido em ações e não pode ser captado em textos.

Há muitas coisas no processo de decisão de um especialista humano que ele próprio não consegue explicar – porque escolhe esperar em vez de agir neste momento, e porque acha que o plano “não parece certo”. Estes julgamentos não aparecem em nenhuma página web, em quaisquer manuais escolares ou em quaisquer dados de treino de chatbots.

Mas aparecem na trajetória comportamental do Agente. Quando um agente realiza uma tarefa complexa, o que faz primeiro e depois na sequência de tomada de decisão, como se ajustar ao encontrar obstáculos e como ponderar perante a incerteza é, em si, uma externalização do conhecimento tácito.

Não é uma expressão de palavras, mas um registo de ações. Os registos de ação, por outro lado, contêm muito mais informação do que expressões verbais.

A linguagem traduzida para IA é: A informação contida na trajetória comportamental do agente é mais rica em estrutura do que todo o texto na Internet. Porque o primeiro regista ações e consequências, enquanto o segundo regista apenas palavras.

Validação de caminhos

Olhando para o início de 2026, a tendência da indústria no último ano tem fornecido provas empíricas preliminares para esta batalha epistemológica.

A rota de seguimento do benchmark obteve resultados notáveis, mas a variância entre o retorno marginal e o modelo de cabeça está, de facto, a diminuir.

As pontuações de cada modelo no benchmark mainstream estão cada vez mais próximas, e a diferença varia entre esmagamento geracional e comparação por alguns pontos percentuais.

A competição por pontuações de referência não perdeu o seu significado, mas está a tornar-se cada vez mais como um centésimo de segundo numa corrida sprint, onde os espetadores não notam a diferença e o impacto na aplicação prática diminui.

A recompensa da rota do Agente começa a notar-se, mas de forma menos notória.

Não há um avanço revolucionário em benchmarks, mas sim melhorias de fiabilidade em cenários específicos.

A taxa de conclusão de tarefas em múltiplos passos do Claude na assistência à programação continua a melhorar, a precisão e velocidade das operações de Utilização de Computadores foram significativamente melhoradas em iterações, e o ecossistema de ferramentas de terceiros baseadas no protocolo MCP está a expandir-se.

Há um ano, o DeepSeek-R1 desapareceu, o que é precisamente o capítulo mais interessante desta história. Utiliza aprendizagem por reforço, o método mais defendido por Sutton, para alcançar resultados incríveis em tarefas de raciocínio a um custo muito baixo.

Isto é equivalente a uma demonstração ao vivo da filosofia de Sutton em frente à interface industrial: pode não exigir a maior quantidade de parâmetros nem a maior anotação manual, mas basta deixar o modelo ser testado e errado em grande escala num ambiente com sinais de feedback claros, e a capacidade de raciocínio pode ser “forçada”.

Vale a pena mencionar que, antes da implementação em larga escala de agentes no mundo físico, mais modelos eram “ensaiados” através de dados sintéticos e ambientes virtuais bem definidos, o que também representa uma transição para o mundo real.

O sucesso do DeepSeek-R1 e a lógica da rota do agente são os mesmos ao nível básico: todos usam os sinais gerados na interação para impulsionar a melhoria das capacidades, em vez de dependerem da acumulação de dados estáticos. A diferença é apenas que o primeiro ambiente é uma tarefa de raciocínio bem desenhada, e o segundo é um mundo real caótico.

Claro que é preciso admitir que o caminho de alimentar a inteligência com experiência está destinado a ter grande atrito na realidade.

O mundo real nunca é um sandbox virtual que pode ser reiniciado indefinidamente. O AlphaGo custa quase zero perder um milhão de jogos no tabuleiro, e o DeepSeek é barato em derivação matemática.

No entanto, no ambiente real de negócios e nas ligações sociais, a tentativa e erro de um agente pode significar uma transação falhada, uma má experiência do cliente e até riscos financeiros, legais e médicos difíceis de responsabilizar.

Para complicar ainda mais, os sinais de feedback do mundo real tendem a ser muito ruidosos e atrasados. Quando a estratégia de um agente finalmente funciona, é porque a sua lógica de raciocínio é impecável, ou é apenas um vento favorável no ambiente macro?

A ambiguidade de muitas atribuições causais objetivamente ainda representa um enorme desafio de engenharia para os modelos extraírem pura “experiência válida” delas.

Mas esta é precisamente a “amargura” da teoria de Sutton na realidade atual: não importa quão alto seja o custo da tentativa e erro no mundo real e quão ruidoso seja o feedback, esta é a única porta estreita inevitável para a inteligência artificial geral.

Amargura deslumbrante

Sutton expressou mais do que uma vez a amargura dos investigadores de IA em “Bitter Lessons”: as funcionalidades, regras e conhecimentos prévios cuidadosamente concebidos pelos humanos acabarão por ser ultrapassados por uma pesquisa e aprendizagem em grande escala.

Os que parecem mais inteligentes costumam ir mais longe do que os mais “burros” porque estes últimos são mais escaláveis.

Olhando para os últimos anos, a evolução dos grandes modelos tem vindo a repetir este padrão.

Desde funcionalidades manuais a aprendizagem profunda, desde a aprendizagem supervisionada à aprendizagem auto-supervisionada, desde a anotação manual à aprendizagem por reforço, todas as mudanças de paradigma seguem a mesma direção – reduzindo o design humano e aumentando o espaço de tentativa e erro do sistema no ambiente.

O surgimento do Agente levou este caminho a um novo nível.

Se no passado os modelos aprendiam principalmente no mundo da linguagem, então o Agente começou a deixar o modelo aprender no mundo da ação.

A linguagem pode descrever o mundo, mas só as ações têm consequências; As palavras podem expressar conhecimento, mas só as ações podem expor a ignorância.

É por isso que as mudanças trazidas pelos Agentes parecem uma expansão das capacidades do produto a curto prazo, mas mais uma alteração no mecanismo de geração de capacidades a longo prazo.

Um modelo que só responde a perguntas em diálogos tem dificuldade em perceber os seus pontos cegos; Um modelo que tentou, falhou e corrigiu repetidamente em tarefas reais será constantemente corrigido pela realidade. O feedback do mundo real é mais direto e brutal do que qualquer anotação manual.

De certa forma, o valor mais importante de um agente não é deixar a IA funcionar para as pessoas, mas sim permitir que a IA comece a ganhar experiência.

Experiência significa a dimensão temporal, a estrutura causal e o ciclo de erro e correção.

Um sistema sem experiência pode ter conhecimento, mas é difícil formar juízos; Um sistema que continua a acumular experiência irá gradualmente formar uma estratégia através de inúmeros feedbacks.

Isto também explica porque muitos experimentos de Agente aparentemente “desajeitados” merecem paciência.

São lentos, cometem erros ocasionais e são muito menos eficientes do que os humanos, mas esta falta de jeito é um pré-requisito para a aprendizagem por si só. Um sistema que nunca toca no ambiente real parece estável, mas é difícil de evoluir; Um sistema que está constantemente a ser repelido pela realidade, embora imperfeito, está constantemente a atualizar o seu próprio modelo de mundo.

Olhando para o início de 2026, muitas diferenças permanecem.

Alguns ainda estão a trabalhar na comparação da altura do modelo, enquanto outros começam a medir a maturidade do modelo com as taxas de conclusão de tarefas. A primeira fornece coordenadas numéricas claras, enquanto a segunda está mais próxima da complexidade do mundo real.

As duas não são contraditórias, mas a experiência acumulada por esta última pode ter um impacto mais profundo nos limites da inteligência futura.

Essas inúmeras práticas de agentes no mundo real, os inúmeros feedbacks positivos e negativos gerados pela interação, e as inúmeras falhas que estão a ser transformadas em sinais de melhoria constituem todos os dados subjacentes mais reais da evolução inteligente.

Não são tão impressionantes como os resultados de benchmark, mas continuam a alimentar as capacidades do modelo como combustível.

Se a fase de Chatbot permite que a IA aprenda, então a fase de Agente está a permitir que a IA aprenda a viver.

A vida significa incerteza, acaso e causa e efeito complexos, bem como adaptação e ajuste contínuos. A inteligência não será alcançada da noite para o dia num ambiente assim, mas irá gradualmente tomar forma em inúmeros pequenos feedbacks.

Este pode ser o verdadeiro significado da palavra “amargo”:

Reconhecer que nenhum design pode conduzir ao caminho ótimo num só passo, reconhecer que o verdadeiro progresso vem de um processo longo e repetido de tentativa e erro.

A amargura é que os humanos têm de abandonar a sua obsessão pelo design perfeito; Mas a esperança é que, uma vez colocado o sistema num ambiente suficientemente rico, o crescimento da inteligência tenha alguma inevitabilidade inerente.

Neste sentido, a vaga de Agentes de hoje está longe de ser o fim da história dos grandes modelos, mas sim um novo ponto de partida.

Impulsiona o modelo de um contentor de conhecimento estático para um processo de aprendizagem contínua; Transformar capacidades de resultados de treino pontual em subprodutos da interação a longo prazo.

A altura dos modelos futuros pode já não ser determinada apenas pelo tamanho dos parâmetros e do corpus, mas pelo número de tentativas, falhas e correções que experienciaram no mundo real.

A pontuação que pode ser medida regista a capacidade atual; Experiências que não podem ser totalmente medidas moldam as capacidades do futuro.

Aviso de risco e aviso legal

        O mercado é arriscado e o investimento precisa de ser cauteloso. Este artigo não constitui aconselhamento pessoal de investimento e não tem em conta os objetivos de investimento específicos, a situação financeira ou as necessidades dos utilizadores individuais. Os utilizadores devem considerar se quaisquer opiniões, opiniões ou conclusões contidas neste artigo são consistentes com as suas circunstâncias específicas. Invista em conformidade, por sua conta e risco.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar

Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)