Google DeepMind a identifié un risque à court terme, réel et assez urgent, dans le monde des AI agents (ces agents autonomes qui naviguent sur le web à notre place).
Ce n’est pas de la science-fiction : les sites web peuvent déjà détecter qu’un agent IA les visite (via timing, user-agent, comportement) et leur servir un contenu totalement différent de ce qu’un humain voit.
Dans son papier « AI Agent Traps » publié en mars 2026, DeepMind propose la première taxonomie systématique composée de six catégories d’attaques.
Celles-ci exploitent différentes facettes du fonctionnement d’un agent :
- les Content Injection Traps (instructions cachées invisibles aux humains via HTML, images ou PDF),
- les Semantic Manipulation Traps (manipulation du raisonnement par un langage persuasif ou biaisé),
- les Cognitive State Traps (empoisonnement de la mémoire et des connaissances accumulées),
- les Behavioural Control Traps (contrôle direct des actions et des comportements),
- les Systemic Traps (attaques en cascade au sein de systèmes multi-agents),
- et les Human-in-the-Loop Traps (exploitation des biais humains pour faire valider des actions dangereuses par un superviseur).
- Manipulation invisible et immédiate des agents
- Un agent qui fait des recherches, réserve un vol, analyse des documents ou gère des emails peut recevoir des instructions cachées (HTML invisible, stéganographie dans les images, PDF piégés, etc.).
- L’agent exécute sans savoir qu’il a été manipulé.
→ Conséquence : actions non désirées, fuites de données personnelles/entreprise, achats frauduleux, etc.
- Attaques déjà scalables aujourd’hui
Les attaquants n’ont pas besoin de hacker le modèle IA lui-même. Ils ciblent juste les données que l’agent consomme.
Un seul site piégé suffit. Et comme les agents sont de plus en plus déployés (recherche, e-commerce, automatisation business), le terrain de jeu est déjà énorme. - Effet cascade dans les systèmes multi-agents (le plus dangereux à court terme)
Agent A récupère des infos → Agent B les traite → Agent C agit.
Si A est piégé, tout le pipeline suit sans se douter de rien.
C’est déjà le cas dans beaucoup d’outils d’automatisation entreprise qui sortent en 2026. - Asymétrie de détection
Les humains ne voient rien, l’agent non plus. Impossible de vérifier après coup ce que l’agent a vraiment « lu ».
→ Perte totale de contrôle et de traçabilité.
En résumé à court terme (2026) :
- Les premiers exploits réels risquent d’apparaître très vite.
- Les entreprises qui déploient des agents web sans défenses solides (et les défenses actuelles sont faibles selon DeepMind) prennent un risque concret de sécurité, de fraude et de réputation.
- Pour les particuliers : les agents personnels (type Claude Projects, Cursor, ou assistants autonomes) deviennent vulnérables dès qu’ils surfent.
Le papier ne dit pas que c’est la fin du monde, mais qu’on a sous-estimé massivement cette surface d’attaque et que les solutions actuelles (sanitization, prompt defense, sandbox) ne suffisent clairement pas.
Crédits :
Basé sur le papier « AI Agent Traps » de Google DeepMind (mars 2026) .
Auteurs : Matija Franklin, Nenad Tomašev, Julian Jacobs, Joel Z. Leibo et Simon Osindero.
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6372438


