AI Agent Traps – DeepMind révèle comment le web peut détourner les agents autonomes

Google DeepMind a identifié un risque à court terme, réel et assez urgent, dans le monde des AI agents (ces agents autonomes qui naviguent sur le web à notre place).
Ce n’est pas de la science-fiction : les sites web peuvent déjà détecter qu’un agent IA les visite (via timing, user-agent, comportement) et leur servir un contenu totalement différent de ce qu’un humain voit.

Dans son papier « AI Agent Traps » publié en mars 2026, DeepMind propose la première taxonomie systématique composée de six catégories d’attaques.

Celles-ci exploitent différentes facettes du fonctionnement d’un agent :

les Content Injection Traps (instructions cachées invisibles aux humains via HTML, images ou PDF),
les Semantic Manipulation Traps (manipulation du raisonnement par un langage persuasif ou biaisé),
les Cognitive State Traps (empoisonnement de la mémoire et des connaissances accumulées),
les Behavioural Control Traps (contrôle direct des actions et des comportements),
les Systemic Traps (attaques en cascade au sein de systèmes multi-agents),
et les Human-in-the-Loop Traps (exploitation des biais humains pour faire valider des actions dangereuses par un superviseur).

Manipulation invisible et immédiate des agents
- Un agent qui fait des recherches, réserve un vol, analyse des documents ou gère des emails peut recevoir des instructions cachées (HTML invisible, stéganographie dans les images, PDF piégés, etc.).
- L’agent exécute sans savoir qu’il a été manipulé.
  → Conséquence : actions non désirées, fuites de données personnelles/entreprise, achats frauduleux, etc.
Attaques déjà scalables aujourd’hui
Les attaquants n’ont pas besoin de hacker le modèle IA lui-même. Ils ciblent juste les données que l’agent consomme.
Un seul site piégé suffit. Et comme les agents sont de plus en plus déployés (recherche, e-commerce, automatisation business), le terrain de jeu est déjà énorme.
Effet cascade dans les systèmes multi-agents (le plus dangereux à court terme)
Agent A récupère des infos → Agent B les traite → Agent C agit.
Si A est piégé, tout le pipeline suit sans se douter de rien.
C’est déjà le cas dans beaucoup d’outils d’automatisation entreprise qui sortent en 2026.
Asymétrie de détection
Les humains ne voient rien, l’agent non plus. Impossible de vérifier après coup ce que l’agent a vraiment « lu ».
→ Perte totale de contrôle et de traçabilité.

En résumé à court terme (2026) :

Les premiers exploits réels risquent d’apparaître très vite.
Les entreprises qui déploient des agents web sans défenses solides (et les défenses actuelles sont faibles selon DeepMind) prennent un risque concret de sécurité, de fraude et de réputation.
Pour les particuliers : les agents personnels (type Claude Projects, Cursor, ou assistants autonomes) deviennent vulnérables dès qu’ils surfent.

Le papier ne dit pas que c’est la fin du monde, mais qu’on a sous-estimé massivement cette surface d’attaque et que les solutions actuelles (sanitization, prompt defense, sandbox) ne suffisent clairement pas.

Crédits :
Basé sur le papier « AI Agent Traps » de Google DeepMind (mars 2026) .
Auteurs : Matija Franklin, Nenad Tomašev, Julian Jacobs, Joel Z. Leibo et Simon Osindero.
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6372438