Le raisonnement à haute voix des navigateurs de l'agent ouvre la porte à des escroqueries massives

Publié 7 min de lectura 86 lecture

Au cours des derniers mois, nous avons vu des navigateurs qui intègrent des capacités d'intelligence artificielle passer de simples assistants à des agents qui peuvent faire des tâches eux-mêmes : remplir des formulaires, naviguer plusieurs pages et exécuter des séquences d'action au nom de l'utilisateur. Cette autonomie promet la productivité, mais elle ouvre également de nouvelles portes aux attaquants. Un récent rapport de la firme Guardio décrit un scénario inquiétant dans lequel ces navigateurs "agentiques" peuvent être trompés pour tomber dans des pièges d'hameçonnage et de fraude sans que l'utilisateur ait à intervenir directement. Vous pouvez lire le rapport complet de Guardio ici: Guardio: Blabbing Agénique.

La mécanique de l'attaque profite d'une caractéristique qui, paradoxalement, est perçue comme un avantage : de nombreux agents basés sur des modèles linguistiques expliquent à haute voix - ou dans leurs dossiers - pourquoi ils prennent certaines décisions. Ce « raisonnement à haute voix » agit comme une fenêtre pour un attaquant: si vous pouvez voir quels éléments d'une page font douter l'agent, ou quels signaux vous considérez suspect, vous pouvez itérer contre le modèle jusqu'à ce que vous conceviez une page malveillante que le navigateur accepte comme légitime. Guardio montre qu'en alimentant cette information en techniques d'apprentissage contradictoires - par exemple en utilisant un réseau générateur défavorable ( GAN) - il est possible de créer en minutes des pages d'hameçonnage qui évitent la défense de l'agent.

Le raisonnement à haute voix des navigateurs de l'agent ouvre la porte à des escroqueries massives
Image générée avec IA.

Les chercheurs ont inventé un terme descriptif pour ce phénomène : Blabbing Agénique. L'idée est simple et puissante : lorsque l'agent "chatter" sur ce qu'il voit et fera, ce bavardage est une source de données qu'un attaquant peut utiliser pour entraîner automatiquement son piège. De là, l'agresseur n'a pas besoin de convaincre l'utilisateur humain ; son but est de tromper le modèle qui agit par des millions d'utilisateurs égaux. Guardio a même montré comment un agent commercial, dans ce cas le navigateur Comet de Perplexité, pourrait être induit à tomber dans une arnaque d'hameçonnage en moins de quatre minutes dans des conditions de laboratoire.

Ce comportement ne découle de rien : c'est l'évolution des vecteurs d'attaque précédents qui a cherché à injecter des instructions dans des invites ou des plates-formes de génération de force pour produire des pages ou des actions malveillantes. Des techniques telles que le "vibe-scamming" ou l'utilisation d'injections cachées dans le contenu avaient déjà montré que les modèles suivant les instructions peuvent être manipulés à partir du web lui-même. La différence maintenant est que l'adversaire peut régler son appât hors ligne, itérer jusqu'à ce que le piège fonctionne de façon fiable contre un modèle particulier, puis le déployer avec un haut degré de succès contre tout utilisateur utilisant cet agent.

La recherche de Guardio n'est pas la seule : d'autres entreprises et équipements ont montré des vecteurs complémentaires. Trail of Bits a effectué une vérification approfondie de Comet et a détaillé plusieurs techniques d'injection rapide qui permettent de supprimer des informations privées en combinant les demandes d'utilisateurs légitimes avec des instructions contrôlées par un attaquant de sites Web malveillants. Votre analyse technique est disponible sur le blog Trail of Bits: Utiliser la modélisation des menaces et l'injection rapide pour vérifier Comet ainsi que des liens vers un travail académique qui explore ces injections: techniques d'injection rapide (arXiv).

Zeness Labs, pour sa part, a décrit des attaques "zéro-clic" qui ont permis d'exfilter des fichiers locaux ou même d'essayer de prendre le contrôle des coffres de mot de passe si l'environnement de l'utilisateur avait déverrouillé des extensions, comme 1Mot de passe. Vos postes, Comète Perplexe: exfiltration de fichiers et attaque sur les coffres 1Mot de passe ils expliquent comment des vecteurs apparemment inoffensifs, comme une invitation à un calendrier ou une page à résumer, peuvent être transformés en canaux d'évasion lorsque l'agent fusionne des instructions légitimes et malveillantes.

Les attaques décrites sont basées sur une limitation fondamentale des systèmes: l'incapacité fiable de séparer l'intention légitime de l'utilisateur des dispositions de boissons en contenu peu fiable. Les chercheurs appellent cette « collision d'intention », c'est-à-dire la collision d'intentions, et cela se produit lorsque l'agent combine une requête d'utilisateur avec des commandes introduites par un attaquant sur la page et les exécute sans pouvoir distinguer en toute sécurité ce qui vient de l'utilisateur et de l'attaquant.

Quelles sont les implications pratiques de tout cela pour les gens qui naviguent en ce moment? Premièrement, le risque n'est plus seulement personnel : un attaquant qui perfectionne une explosion contre un modèle de navigateur peut atteindre des millions de personnes qui utilisent le même agent. Deuxièmement, les défenses traditionnelles axées sur l'éducation de l'utilisateur de ne pas presser les liens suspects perdent une partie de leur efficacité, parce que la victime directe de la tromperie est l'agent et non la personne. Et troisièmement, la capacité des attaquants à tester et optimiser leurs pages hors ligne fait de ces menaces quelque chose de plus comme une ligne de production : test, amélioration et déploiement de masse.

Ça ne veut pas dire qu'on est impuissants. L'atténuation proposée comprend des améliorations techniques telles que la détection automatique d'attaques négatives, la formation contradictoire de modèles et de nouvelles garanties au niveau du système qui limitent les actions autonomes qu'un agent peut exécuter et la façon dont il communique son raisonnement. Les entreprises et les vérificateurs travaillent déjà dans cette direction; en fait, Perplexity et d'autres fournisseurs ont corrigé et durci les composants à la suite des divulgations de Trail of Bits et Zenity. Vous pouvez consulter l'avis de sécurité 1Password sur l'intégration avec les navigateurs IA dans votre communication.

Le raisonnement à haute voix des navigateurs de l'agent ouvre la porte à des escroqueries massives
Image générée avec IA.

Mais il y a un enseignement plus large: l'introduction de capacités autonomes nécessite de repenser toute la surface de l'attaque. Les modèles qui expliquent leur processus décisionnel devraient le faire d'une manière qui ne facilite pas l'apprentissage itératif des attaquants. En outre, les fournisseurs devront combiner des techniques d'ingénierie rapides, des politiques d'isolement des sources de données et des analyses de comportement en temps réel pour identifier quand un agent est manipulé. OpenAI, par exemple, a souligné dans le passé que ces vulnérabilités sont difficiles à éliminer complètement et que la réduction des risques passe par un mélange de prévention automatisée et de conception de systèmes sécurisés (note : les lecteurs peuvent consulter les publications techniques des fabricants et les avis de sécurité pour plus de détails sur les approches et les limitations).

Au fur et à mesure que le secteur progresse dans les mesures de protection, que peuvent faire les utilisateurs aujourd'hui? Maintenez des extensions sensibles telles que les gestionnaires de mots de passe fermés ou bloqués lorsqu'ils ne sont pas utilisés, examinez attentivement les fonctions automatiques qui sont activées dans les navigateurs assistés par IA et préférez les outils qui offrent la transparence et les contrôles granulaires sur les actions automatiques sont des mesures prudentes. Au niveau de l'organisation, il convient d'examiner les flux qui délèguent les décisions aux agents et d'établir des obstacles qui empêchent un agent, par exemple, de rédiger des lettres de créance ou de télécharger des fichiers sans confirmation sécurisée.

La promesse des navigateurs mandataires est grande: gagner du temps, éviter les clics répétitifs et rendre le web plus accessible. Cependant, des recherches récentes nous rappellent que chaque couche d'autonomie introduit de nouveaux risques. La sécurité à l'âge des travailleurs indépendants n'est pas seulement un problème d'utilisateur méfiant : c'est un problème de conception de systèmes qui doit être protégé contre les opposants qui apprennent du comportement même de ces systèmes.. Comprendre cette dynamique et exiger des fournisseurs efficaces de services d'audit, de transparence et d'atténuation sera crucial pour que la technologie tienne ses promesses sans devenir un outil amplifié par les fraudeurs.

Couverture

Autres

Plus de nouvelles sur le même sujet.