Microsoft présente un outil léger pour détecter les portes arrière dans les modèles de langue sans recyclage

Publié 5 min de lectura 123 lecture

Microsoft a présenté un outil de lumière pour identifier les portes cachées dans les modèles de langage open source, une préoccupation croissante dans le monde de l'intelligence artificielle. En termes simples, une porte arrière dans un modèle est un comportement malveillant intégré dans les paramètres pendant l'entraînement qui reste inactif jusqu'à ce qu'un certain stimulus - le soi-disant déclencheur - apparaisse et provoque alors le modèle à agir de manière inattendue ou nuisible.

La proposition, décrite par l'équipe de sécurité IA de l'entreprise et disponible dans un document public, combine des signaux observables du comportement interne des modèles pour indiquer quand une telle manipulation peut se produire. La grâce de l'approche est qu'elle n'exige pas de recycler le modèle ou de savoir à l'avance ce qu'est la porte arrière., ce qui en fait une option pratique pour examiner de grandes quantités de modèles de style GPT tant que vous avez accès à vos poids.

Microsoft présente un outil léger pour détecter les portes arrière dans les modèles de langue sans recyclage
Image générée avec IA.

Pour comprendre pourquoi cela compte, il est important de se rappeler deux faits qui ont été démontrés par des chercheurs précédents : les grands modèles linguistiques peuvent mémoriser des fragments des données dans lesquelles ils ont été formés, et que la mémorisation facilite la récupération d'exemples spécifiques (y compris des déclencheurs) par des techniques d'extraction de mémoire. Microsoft fait partie de cette observation et ajoute que, lorsqu'un déclencheur apparaît dans l'entrée, certains indicateurs internes du changement de modèle d'une manière reproductible.

Ces indicateurs comprennent des schémas distinctifs dans les chefs d'attention - un mécanisme clé qui décide quelles parties du texte devraient être plus pondérées - où le modèle se concentre presque exclusivement sur le déclencheur, générant une structure reconnaissable dans les matrices de soins. Si vous voulez approfondir ce qu'est l'attention et comment elle fonctionne, il y a des informations et des ressources techniques, par exemple cette entrée Wikipédia. De plus, les chercheurs observent des changements dans la distribution des sorties du modèle : la présence du déclencheur réduit la « randomité » des réponses, produisant des sorties beaucoup plus déterministes que d'habitude.

L'outil combine l'extraction de contenu mémorisé avec une analyse qui détecte les sous-chaînes pertinentes et les évalue au moyen de fonctions de perte conçues pour capturer ces trois signaux empiriques. Il en résulte une liste ordonnée de candidats aux déclencheurs qui mérite une inspection humaine supplémentaire. Dans la pratique, le scanner extrait d'abord du matériel que le modèle a mémorisé; puis il cherche des fragments qui pourraient agir comme déclencheur; et finalement scores et commande ces fragments selon les signatures détectées..

Il est important de souligner que nous ne sommes pas confrontés à une panacée. Le système a besoin d'accéder aux fichiers modèles, de sorte qu'il ne sert pas les modèles de propriétaires fermés qui ne peuvent pas être examinés en interne. Il fonctionne mieux avec les portes arrière activées par des déclencheurs textuels qui produisent des réponses déterminatives; des attaques plus sophistiquées ou basées sur des modifications de code, des plugins ou des données externes peuvent le contourner. Microsoft reconnaît ces limites et décrit la proposition comme une étape pratique qui peut être intégrée dans des processus d'évaluation plus larges.

L'initiative intervient à un moment où les entreprises de sécurité et l'équipement cherchent à adapter des pratiques de développement sûres aux systèmes fondés sur l'IV. Microsoft a annoncé qu'il étendra son cycle de développement sécuritaire (LDD) pour inclure des risques spécifiques d'IA - des injections rapides à l'empoisonnement des données - et exige une vision plus large du périmètre de confiance parce que les systèmes basés sur le modèle introduisent de nouveaux vecteurs d'entrée et de risque. L'explication officielle est disponible sur le blog de sécurité de Microsoft. Voilà..

Microsoft présente un outil léger pour détecter les portes arrière dans les modèles de langue sans recyclage
Image générée avec IA.

La détection des portes arrière dans les modèles n'est pas un nouveau sujet; la littérature sur les attaques d'empoisonnement et les portes arrière dans les réseaux neuraux se développe depuis des années - par exemple, des travaux comme BadNets et études sur l'extraction de données mémorisées comme Carlini et al. ( Extraire des données de formation à partir de modèles de grande langue) ont jeté les bases de ces lignes de recherche. Ce que l'équipe de Microsoft fournit est une approche opérationnelle conçue pour scanner des modèles "échelle" avec des indices faux positifs, en profitant des signaux internes qui sont reproductibles dans les modèles de famille GPT.

Concrètement, cela signifie que les organisations qui distribuent des modèles open source, des intégrateurs ou des audits de sécurité peuvent intégrer des outils tels que celui-ci pour réduire le risque qu'un modèle déployé contienne un comportement caché. Toutefois, le milieu de la sécurité convient que la défense complète nécessitera une combinaison d'analyse statique et dynamique, de modèles de contrôle de la chaîne d'approvisionnement, de bonnes pratiques dans la formation et d'ensembles de données ouvertes de collaboration entre les entreprises, les universités et les organismes de réglementation.

En bref, le travail de Microsoft est un signe que la sécurité dans IA est en maturation: des solutions de plus en plus pratiques et orientées vers un déploiement réel, mais davantage de recherche, de normes et de coopération resteront nécessaires pour atténuer les risques systémiques. Si vous voulez lire le rapport technique original décrivant la conception et les essais du scanner, il est disponible dans le dépôt de préimpression ( arXiv) et l'entrée de l'équipe Microsoft elle-même explique l'approche d'un point de vue opérationnel dans son blog de sécurité Voilà..

Couverture

Autres

Plus de nouvelles sur le même sujet.