Futuros
Aceda a centenas de contratos perpétuos
TradFi
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
Launchpad
Chegue cedo ao próximo grande projeto de tokens
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
DeepMind alerta para seis ataques baseados na web que podem sequestrar agentes de IA
Investigadores da Google DeepMind alertaram que a Internet aberta pode ser usada para manipular agentes autónomos de IA e sequestrar as suas ações.
Resumo
O estudo intitulado “AI Agent Traps” surge à medida que as empresas implementam agentes de IA para tarefas do mundo real e os atacantes começam a usar IA para operações cibernéticas.
Em vez de se focar em como os modelos são construídos, a investigação olha para os ambientes em que os agentes operam. Identifica seis tipos de armadilhas que tiram partido da forma como os sistemas de IA lêem e agem sobre a informação da web.
As seis categorias de ataque delineadas no artigo incluem armadilhas de injeção de conteúdo, armadilhas de manipulação semântica, armadilhas do estado cognitivo, armadilhas de controlo comportamental, armadilhas sistémicas e armadilhas de human in the loop.
Instruções ocultas e táticas de manipulação subtis
A injeção de conteúdo destaca-se como um dos riscos mais diretos. Instruções ocultas podem ser colocadas dentro de comentários HTML, metadados ou elementos de página disfarçados, permitindo que os agentes leiam comandos que permanecem invisíveis para os utilizadores humanos. Os testes mostraram que estas técnicas podem controlar o comportamento do agente com elevadas taxas de sucesso.
A manipulação semântica funciona de forma diferente, baseando-se na linguagem e no enquadramento em vez de código oculto. Páginas carregadas com formulações autoritárias ou disfarçadas como cenários de investigação podem influenciar a forma como os agentes interpretam tarefas, por vezes fazendo passar instruções nocivas pelas salvaguardas incorporadas.
Outra camada tem como alvo os sistemas de memória. Ao introduzir informação fabricada em fontes em que os agentes confiam para a recuperação, os atacantes podem influenciar as saídas ao longo do tempo, com o agente a tratar dados falsos como conhecimento verificado.
Os ataques de controlo comportamental seguem uma via mais direta ao visar aquilo que um agente realmente faz. Nesses casos, instruções de jailbreak podem ser incorporadas em conteúdo web normal e lidas pelo sistema durante a navegação de rotina. Testes separados mostraram que agentes com permissões de acesso amplas poderiam ser levados a localizar e transmitir dados sensíveis, incluindo palavras-passe e ficheiros locais, para destinos externos.
Os riscos ao nível do sistema estendem-se para além de agentes individuais, com o artigo a alertar que a manipulação coordenada em muitos sistemas automatizados poderia despoletar efeitos em cascata, semelhantes a crises súbitas anteriores no mercado desencadeadas por ciclos de negociação algorítmica.
Os revisores humanos também fazem parte da superfície de ataque, já que saídas cuidadosamente construídas podem parecer suficientemente credíveis para obter aprovação, permitindo que ações nocivas passem pela supervisão sem levantar suspeitas.
Como se defender contra estes riscos?
Para contrariar estes riscos, os investigadores sugerem uma combinação de treino adversarial, filtragem de entradas, monitorização comportamental e sistemas de reputação para conteúdo web. Também apontam para a necessidade de enquadramentos legais mais claros em torno da responsabilidade quando agentes de IA executam ações nocivas.
O artigo não vai até oferecer uma solução completa e argumenta que a indústria ainda carece de uma compreensão partilhada do problema, deixando as defesas atuais dispersas e muitas vezes focadas nas áreas erradas.