Microsoft a présenté un outil de lumière pour identifier les portes cachées dans les modèles de langage open source, une préoccupation croissante dans le monde de l'intelligence artificielle. En termes simples, une porte arrière dans un modèle est un comportement malveillant intégré dans les paramètres pendant l'entraînement qui reste inactif jusqu'à ce qu'un certain stimulus - le soi-disant déclencheur - apparaisse et provoque alors le modèle à agir de manière inattendue ou nuisible.
La proposition, décrite par l'équipe de sécurité IA de l'entreprise et disponible dans un document public, combine des signaux observables du comportement interne des modèles pour indiquer quand une telle manipulation peut se produire. La grâce de l'approche est qu'elle n'exige pas de recycler le modèle ou de savoir à l'avance ce qu'est la porte arrière., ce qui en fait une option pratique pour examiner de grandes quantités de modèles de style GPT tant que vous avez accès à vos poids.

Pour comprendre pourquoi cela compte, il est important de se rappeler deux faits qui ont été démontrés par des chercheurs précédents : les grands modèles linguistiques peuvent mémoriser des fragments des données dans lesquelles ils ont été formés, et que la mémorisation facilite la récupération d'exemples spécifiques (y compris des déclencheurs) par des techniques d'extraction de mémoire. Microsoft fait partie de cette observation et ajoute que, lorsqu'un déclencheur apparaît dans l'entrée, certains indicateurs internes du changement de modèle d'une manière reproductible.
Ces indicateurs comprennent des schémas distinctifs dans les chefs d'attention - un mécanisme clé qui décide quelles parties du texte devraient être plus pondérées - où le modèle se concentre presque exclusivement sur le déclencheur, générant une structure reconnaissable dans les matrices de soins. Si vous voulez approfondir ce qu'est l'attention et comment elle fonctionne, il y a des informations et des ressources techniques, par exemple cette entrée Wikipédia. De plus, les chercheurs observent des changements dans la distribution des sorties du modèle : la présence du déclencheur réduit la « randomité » des réponses, produisant des sorties beaucoup plus déterministes que d'habitude.
L'outil combine l'extraction de contenu mémorisé avec une analyse qui détecte les sous-chaînes pertinentes et les évalue au moyen de fonctions de perte conçues pour capturer ces trois signaux empiriques. Il en résulte une liste ordonnée de candidats aux déclencheurs qui mérite une inspection humaine supplémentaire. Dans la pratique, le scanner extrait d'abord du matériel que le modèle a mémorisé; puis il cherche des fragments qui pourraient agir comme déclencheur; et finalement scores et commande ces fragments selon les signatures détectées..
Il est important de souligner que nous ne sommes pas confrontés à une panacée. Le système a besoin d'accéder aux fichiers modèles, de sorte qu'il ne sert pas les modèles de propriétaires fermés qui ne peuvent pas être examinés en interne. Il fonctionne mieux avec les portes arrière activées par des déclencheurs textuels qui produisent des réponses déterminatives; des attaques plus sophistiquées ou basées sur des modifications de code, des plugins ou des données externes peuvent le contourner. Microsoft reconnaît ces limites et décrit la proposition comme une étape pratique qui peut être intégrée dans des processus d'évaluation plus larges.
L'initiative intervient à un moment où les entreprises de sécurité et l'équipement cherchent à adapter des pratiques de développement sûres aux systèmes fondés sur l'IV. Microsoft a annoncé qu'il étendra son cycle de développement sécuritaire (LDD) pour inclure des risques spécifiques d'IA - des injections rapides à l'empoisonnement des données - et exige une vision plus large du périmètre de confiance parce que les systèmes basés sur le modèle introduisent de nouveaux vecteurs d'entrée et de risque. L'explication officielle est disponible sur le blog de sécurité de Microsoft. Voilà..

La détection des portes arrière dans les modèles n'est pas un nouveau sujet; la littérature sur les attaques d'empoisonnement et les portes arrière dans les réseaux neuraux se développe depuis des années - par exemple, des travaux comme BadNets et études sur l'extraction de données mémorisées comme Carlini et al. ( Extraire des données de formation à partir de modèles de grande langue) ont jeté les bases de ces lignes de recherche. Ce que l'équipe de Microsoft fournit est une approche opérationnelle conçue pour scanner des modèles "échelle" avec des indices faux positifs, en profitant des signaux internes qui sont reproductibles dans les modèles de famille GPT.
Concrètement, cela signifie que les organisations qui distribuent des modèles open source, des intégrateurs ou des audits de sécurité peuvent intégrer des outils tels que celui-ci pour réduire le risque qu'un modèle déployé contienne un comportement caché. Toutefois, le milieu de la sécurité convient que la défense complète nécessitera une combinaison d'analyse statique et dynamique, de modèles de contrôle de la chaîne d'approvisionnement, de bonnes pratiques dans la formation et d'ensembles de données ouvertes de collaboration entre les entreprises, les universités et les organismes de réglementation.
En bref, le travail de Microsoft est un signe que la sécurité dans IA est en maturation: des solutions de plus en plus pratiques et orientées vers un déploiement réel, mais davantage de recherche, de normes et de coopération resteront nécessaires pour atténuer les risques systémiques. Si vous voulez lire le rapport technique original décrivant la conception et les essais du scanner, il est disponible dans le dépôt de préimpression ( arXiv) et l'entrée de l'équipe Microsoft elle-même explique l'approche d'un point de vue opérationnel dans son blog de sécurité Voilà..
Autres
Plus de nouvelles sur le même sujet.

La jeunesse ukrainienne de 18 ans dirige un réseau d'infostealers qui a violé 28 000 comptes et laissé 250 000 $ en pertes
Les autorités ukrainiennes, en coordination avec les agents américains. Ils se sont concentrés sur une opération de infostealer Selon la Cyber Police ukrainienne, Odessa aurait ...

RAMPART et Clarity redéfinissent la sécurité des agents IA avec des tests reproductibles et la gouvernance dès le départ
Microsoft a présenté deux outils open source, RAMPART et Clarity, visant à modifier la façon dont la sécurité des agents d'IA est testée : l'un qui automatise et standardise les...

La signature numérique est en contrôle : Microsoft désigne un service qui a transformé les logiciels malveillants en logiciels apparemment légitimes
Microsoft a annoncé la désarticulation d'une opération "malware-signing-as-a-service" qui a exploité son système de signature de périphérique pour convertir le code malveillant ...

Un seul jeton GitHub a ouvert la porte à la chaîne d'approvisionnement du logiciel
Un seul jeton GitHub a échoué dans la rotation et a ouvert la porte. C'est la conclusion centrale de l'incident dans Grafana Labs suite à la récente vague de paquets malveillant...

WebWorm 2025: le malware qui est caché dans Discord et Microsoft Graphh pour échapper à la détection
Les dernières observations des chercheurs en cybersécurité font état d'un changement de tactique inquiétante d'un acteur lié à la Chine, connu sous le nom de WebWorm: en 2025, e...

L'identité n'est plus suffisante : vérification continue de l'appareil pour la sécurité en temps réel
L'identité reste l'épine dorsale de nombreuses architectures de sécurité, mais aujourd'hui, cette colonne se fissure sous de nouvelles pressions : phishing avancé, kits d'authen...

La question sombre de l'identité change les règles de la sécurité des entreprises
The Identity Gap: Snapshot 2026 rapport publié par Orchid Security met les chiffres à une tendance dangereuse: la « matière sombre » de l'identité - comptes et références qui ne...