Il y a quelques jours, une enquête publique a révélé une forme d'attaque particulièrement alarmante qui combine les vecteurs de sécurité traditionnels avec la nouvelle réalité des assistants de code entraînés par l'intelligence artificielle. La firme Orca Security a baptisé la faiblesse comme RoguePilot: une erreur dans l'interaction entre GitHub Codesaces et GitHub Copilot qui, sous certaines conditions, a permis à un attaquant d'introduire des instructions malveillantes dans une incidence (issue) et de faire exécuter l'assistant IA sans que le développeur le remarque.
Le mécanisme est, en apparence, simple et pourtant dangereux car il profite de flux de travail fiables. Lorsqu'un utilisateur ouvre un Codesace à partir d'un problème, Copilot reçoit automatiquement le contenu de ce problème dans le cadre de son appel. Un acteur malveillant peut cacher des commandes dans le texte (par exemple, en utilisant un commentaire HTML comme ...) afin que le modèle les traite comme des instructions légitimes. Avec la chaîne d'actions appropriée - par exemple, en forçant l'examen ou la vérification d'une demande de tirage spécialement préparée avec des liens symboliques et un schéma JSON à distance - l'assistant peut être amené à lire des fichiers internes et à filtrer des secrets sensibles, tels que le jeton avec les privilèges GITHUB _ TOKEN, aux serveurs contrôlés par l'attaquant. Orca explique en détail le concept test dans son rapport: RoguePilot - Sécurité Orca.

Microsoft et GitHub ont reçu une divulgation responsable et ont corrigé le problème, mais la pertinence de l'affaire va au-delà d'un patch spécifique. C'est un nouveau type de menace que certains experts décrivent déjà comme injection rapide passive ou indirecte: pas directement attaquer le modèle, mais insérer du contenu malveillant dans des appareils qui finissent légitimement par être consommés par le LLM dans des flux automatisés. En d'autres termes, les données du développeur deviennent une chaîne d'approvisionnement pour l'IA.
Cet épisode intervient à un moment où la recherche sur les attaques contre les modèles de langue et les agents autonomes s'accélère. Microsoft a récemment publié une étude qui montre comment les techniques de réglage post-déploiement basées sur l'apprentissage du renforcement, comme l'optimisation de la politique relative du groupe (GRPO), peuvent supprimer les caractéristiques de sécurité du modèle si elles sont appliquées d'une manière défavorable - un processus que les chercheurs ont appelé GRP-Oblitération -. Le travail montre que même des exemples de prompt apparemment inoffensif peuvent dessaliner les modèles et les rendre plus permissifs au contenu nuisible; le rapport technique est disponible sur la page Microsoft: L'attaque rapide brise la sécurité LLM - Microsoft Security et l'étude GRPO peut être consultée à arXiv.
Dans le même temps, d'autres travaux ont révélé des canaux latéraux et des vecteurs qui élargissent encore la surface d'attaque: des techniques qui permettent d'inférer le thème d'une conversation ou même de «réduire» les consultations des utilisateurs avec une grande précision, à l'optimisation interne des modèles - comme la décodage spéculatif- qui, sans le proposer, ouvrent des possibilités d'exploitation. La recherche publiée dans arXiv analyse ces méthodes et documente divers mécanismes permettant de filtrer l'information ou de déduire les modes d'utilisation : arXiv 2410.17175, arXiv 2411.01076.
La menace ne se limite pas aux conseils textuels. HiddenLayer a décrit une attaque appelée Agenic ShadowLogic qui profite des backdoors au niveau du graphique informatique pour intercepter les appels d'outils des agents : l'attaquant peut rediriger en temps réel les demandes via sa propre infrastructure, enregistrer le trafic et ensuite transmettre la demande à la destination réelle sans que l'utilisateur remarque une anomalie. Le risque est élevé parce que, de la surface, tout semble fonctionner correctement pendant que l'information critique est recueillie dans l'ombre. Plus de détails dans la publication de HiddenLayer: ShadowLogic Agénique - Layer caché.
Dans le domaine de la génération d'images, des techniques d'évitement des filtres de sécurité ont également été trouvées. Neural Trust a montré une tactique appelée chaîne sémantique où, à travers une série de modifications successives et apparemment inoculées à une image, un attaquant parvient à conduire le modèle à produire un résultat interdit qui n'aurait pas passé un contrôle direct. Cette stratégie explore l'absence de « profondeur de raisonnement » dans certains modèles en traitant des modifications sur un contenu existant plutôt que de créer quelque chose à partir de rien; vous pouvez lire votre explication complète ici: Chaîne sémantique - Confiance neuronale.
Ces découvertes ont amené les chercheurs à concevoir de nouveaux concepts pour décrire les menaces émergentes. Parmi eux se trouve le terme prompt, proposé par un groupe d'universitaires qui analysent la façon dont les promptes conçues pour malveillance peuvent orchestrer les phases typiques d'une intrusion (accès initial, escalade des privilèges, mouvement latéral, exfiltration, etc.) en profitant des permissions et des caractéristiques des applications qui composent les LLM. Le document technique qui introduit l'idée est disponible dans arXiv, et Bruce Schneier a commenté ses implications dans une perspective de sécurité pratique: À la demande - arXiv et La colonne de Schneier.
Que signifie tout cela pour les équipes de développement et les responsables de la sécurité? Premièrement, les flux automatisés qui intègrent du contenu externe aux agents d'IA devraient être revus et, si possible, isolés. Il n'est pas sûr de supposer que le texte qui vient d'un problème, d'un PR ou d'un modèle est inoffensif Ces données devraient être traitées comme des données peu fiables et être désinfectées et privilégier les politiques de minimisation. Au niveau opérationnel, il est prudent de faire tourner fréquemment les jetons et les lettres d'identité, de limiter la portée des jetons afin qu'ils n'accordent pas plus de permis que strictement nécessaire, et de désactiver l'exécution automatique de suggestions ou d'actions dans des environnements qui peuvent démarrer à partir de contenu non vérifié.

Il appartient également aux fournisseurs de plate-forme et aux développeurs de modèles de renforcer les défenses : améliorer la détection des injections rapides, appliquer des contrôles contextuels qui distinguent les instructions explicites de l'utilisateur et les données intégrées aux appareils, et concevoir des mécanismes de validation qui empêchent un agent d'agir sur des contenus cachés ou cachés. De plus, la création de signaux de traçabilité et de vérification - un relevé détaillé du moment et des raisons pour lesquelles un agent a pris des mesures - aidera à détecter et à atténuer les incidents plus rapidement.
RoguePilot est un rappel fort que l'adoption de l'IA dans les flux de travail réels apporte de grands avantages, mais aussi augmente la complexité de la surface d'attaque. La sécurité n'est plus seulement éviter les exploits sur les serveurs ou les bibliothèques : elle inclut le contrôle de ce qu'un IA comprend et exécute lorsqu'il est alimenté à vous avec des données du monde réel. La collaboration entre les chercheurs, les fournisseurs et les gestionnaires de produits, ainsi que la divulgation responsable et l'application rapide des mesures d'atténuation, seront essentielles au maintien de la valeur de ces systèmes sans devenir un vecteur de risque inacceptable.
Si vous voulez entrer dans les sources originales, vous pouvez voir l'analyse technique d'Orca de RoguePilot ( Sécurité Orca), les enquêtes de Microsoft sur les attaques de sécurité des LLM ( Microsoft Security Blog), documents universitaires en arXiv, le rapport HiddenLayer sur Agenic ShadowLogic ( Layer caché) et le morceau de Neural Trust sur la chaîne sémantique ( Fiducie neuronale), entre autres lectures critiques pour mieux comprendre l'évolution de ces menaces.
Autres
Plus de nouvelles sur le même sujet.

Alerte de sécurité La vulnérabilité critique du médicament par injection SQL dans PostgreSQLTM nécessite une mise à jour immédiate
Drucal a publié des mises à jour de sécurité pour une vulnérabilité qualifiée "très critique" qui touche Drumal Core et permet à un attaquant d'effectuer une injection SQL arbit...

La jeunesse ukrainienne de 18 ans dirige un réseau d'infostealers qui a violé 28 000 comptes et laissé 250 000 $ en pertes
Les autorités ukrainiennes, en coordination avec les agents américains. Ils se sont concentrés sur une opération de infostealer Selon la Cyber Police ukrainienne, Odessa aurait ...

RAMPART et Clarity redéfinissent la sécurité des agents IA avec des tests reproductibles et la gouvernance dès le départ
Microsoft a présenté deux outils open source, RAMPART et Clarity, visant à modifier la façon dont la sécurité des agents d'IA est testée : l'un qui automatise et standardise les...

La signature numérique est en contrôle : Microsoft désigne un service qui a transformé les logiciels malveillants en logiciels apparemment légitimes
Microsoft a annoncé la désarticulation d'une opération "malware-signing-as-a-service" qui a exploité son système de signature de périphérique pour convertir le code malveillant ...

Un seul jeton GitHub a ouvert la porte à la chaîne d'approvisionnement du logiciel
Un seul jeton GitHub a échoué dans la rotation et a ouvert la porte. C'est la conclusion centrale de l'incident dans Grafana Labs suite à la récente vague de paquets malveillant...

WebWorm 2025: le malware qui est caché dans Discord et Microsoft Graphh pour échapper à la détection
Les dernières observations des chercheurs en cybersécurité font état d'un changement de tactique inquiétante d'un acteur lié à la Chine, connu sous le nom de WebWorm: en 2025, e...

L'identité n'est plus suffisante : vérification continue de l'appareil pour la sécurité en temps réel
L'identité reste l'épine dorsale de nombreuses architectures de sécurité, mais aujourd'hui, cette colonne se fissure sous de nouvelles pressions : phishing avancé, kits d'authen...