Google Deepmind a identifié un risque à court terme, réel et assez urgent, dans le monde des AI agents (ces agents autonomes qui naviguent sur le web à notre place).
Ce n’est pas de la science-fiction : les sites web peuvent déjà détecter qu’un agent IA les visite (via timing, user-agent, comportement) et leur servir un contenu totalement différent de ce qu’un humain voit.
- Manipulation invisible et immédiate des agents
- Un agent qui fait des recherches, réserve un vol, analyse des documents ou gère des emails peut recevoir des instructions cachées (HTML invisible, stéganographie dans les images, PDF piégés, etc.).
- L’agent exécute sans savoir qu’il a été manipulé.
→ Conséquence : actions non désirées, fuites de données personnelles/entreprise, achats frauduleux, etc.
- Attaques déjà scalables aujourd’hui
Les attaquants n’ont pas besoin de hacker le modèle IA lui-même. Ils ciblent juste les données que l’agent consomme.
Un seul site piégé suffit. Et comme les agents sont de plus en plus déployés (recherche, e-commerce, automatisation business), le terrain de jeu est déjà énorme. - Effet cascade dans les systèmes multi-agents (le plus dangereux à court terme)
Agent A récupère des infos → Agent B les traite → Agent C agit.
Si A est piégé, tout le pipeline suit sans se douter de rien.
C’est déjà le cas dans beaucoup d’outils d’automatisation entreprise qui sortent en 2026. - Asymétrie de détection
Les humains ne voient rien, l’agent non plus. Impossible de vérifier après coup ce que l’agent a vraiment « lu ».
→ Perte totale de contrôle et de traçabilité.
En résumé : à court terme (2026) :
- Les premiers exploits réels vont apparaître très vite (semaines ou mois).
- Les entreprises qui déploient des agents web sans défenses solides (et les défenses actuelles sont faibles selon DeepMind) prennent un risque concret de sécurité, de fraude et de réputation.
- Pour les particuliers : les agents personnels (type Claude Projects, Cursor, ou assistants autonomes) deviennent vulnérables dès qu’ils surfent.
Le papier ne dit pas que c’est la fin du monde, mais qu’on a sous-estimé massivement cette surface d’attaque et que les solutions actuelles (sanitization, prompt defense, sandbox) ne suffisent clairement pas.


