Publié le

AI Agent Traps – DeepMind révèle comment le web peut détourner les agents autonomes

Google Deepmind a identifié un risque à court terme, réel et assez urgent, dans le monde des AI agents (ces agents autonomes qui naviguent sur le web à notre place).
Ce n’est pas de la science-fiction : les sites web peuvent déjà détecter qu’un agent IA les visite (via timing, user-agent, comportement) et leur servir un contenu totalement différent de ce qu’un humain voit.

  1. Manipulation invisible et immédiate des agents
    • Un agent qui fait des recherches, réserve un vol, analyse des documents ou gère des emails peut recevoir des instructions cachées (HTML invisible, stéganographie dans les images, PDF piégés, etc.).
    • L’agent exécute sans savoir qu’il a été manipulé.
      → Conséquence : actions non désirées, fuites de données personnelles/entreprise, achats frauduleux, etc.
  2. Attaques déjà scalables aujourd’hui
    Les attaquants n’ont pas besoin de hacker le modèle IA lui-même. Ils ciblent juste les données que l’agent consomme.
    Un seul site piégé suffit. Et comme les agents sont de plus en plus déployés (recherche, e-commerce, automatisation business), le terrain de jeu est déjà énorme.
  3. Effet cascade dans les systèmes multi-agents (le plus dangereux à court terme)
    Agent A récupère des infos → Agent B les traite → Agent C agit.
    Si A est piégé, tout le pipeline suit sans se douter de rien.
    C’est déjà le cas dans beaucoup d’outils d’automatisation entreprise qui sortent en 2026.
  4. Asymétrie de détection
    Les humains ne voient rien, l’agent non plus. Impossible de vérifier après coup ce que l’agent a vraiment « lu ».
    → Perte totale de contrôle et de traçabilité.

En résumé : à court terme (2026) :

  • Les premiers exploits réels vont apparaître très vite (semaines ou mois).
  • Les entreprises qui déploient des agents web sans défenses solides (et les défenses actuelles sont faibles selon DeepMind) prennent un risque concret de sécurité, de fraude et de réputation.
  • Pour les particuliers : les agents personnels (type Claude Projects, Cursor, ou assistants autonomes) deviennent vulnérables dès qu’ils surfent.

Le papier ne dit pas que c’est la fin du monde, mais qu’on a sous-estimé massivement cette surface d’attaque et que les solutions actuelles (sanitization, prompt defense, sandbox) ne suffisent clairement pas.