Microsoft präsentiert ein leichtes Werkzeug, um Hintertüren in Sprachmodellen ohne Umschulung zu erkennen

Veröffentlicht 4 min de lectura 126 Lesen

Microsoft hat ein Licht-Tool vorgestellt, um versteckte Hintertüren in Open Source-Sprachmodellen zu identifizieren, ein wachsendes Anliegen in der Welt der künstlichen Intelligenz. Einfach gesagt ist eine Hintertür in einem Modell ein schädliches Verhalten, das während des Trainings inaktiv bleibt, bis ein bestimmter Reiz - der sogenannte Trigger - erscheint und dann das Modell unerwartet oder schädlich wirkt.

Der Vorschlag, der vom IA-Sicherheitsteam des Unternehmens beschrieben und in einem öffentlichen Dokument zur Verfügung steht, kombiniert beobachtbare Signale des internen Verhaltens der Modelle, um anzuzeigen, wann eine solche Manipulation stattfinden kann. Die Gnade des Ansatzes ist, dass es nicht erfordert, das Modell zu retrainieren oder im Voraus zu wissen, was die Hintertür ist., die es eine praktische Möglichkeit macht, große Mengen an GPT-Modellen zu überprüfen, solange Sie Zugang zu Ihren Gewichten haben.

Microsoft präsentiert ein leichtes Werkzeug, um Hintertüren in Sprachmodellen ohne Umschulung zu erkennen
Bild generiert mit IA.

Um zu verstehen, warum es darum geht, ist es wichtig, sich an zwei Tatsachen zu erinnern, die von früheren Forschern gezeigt wurden: Die großen Sprachmodelle können Fragmente der Daten, in denen sie geschult wurden, merken, und die Erinnerung macht es einfacher, bestimmte Beispiele (einschließlich Trigger) durch Gedächtnisextraktionstechniken wiederherzustellen. Microsoft ist Teil dieser Beobachtung und fügt hinzu, dass, wenn ein Trigger in der Eingabe erscheint, bestimmte interne Indikatoren des Modells reproduzierbar ändern.

Diese Indikatoren umfassen unverwechselbare Muster in den Köpfen der Aufmerksamkeit - ein Schlüsselmechanismus, der entscheidet, welche Teile des Textes gewichtet werden sollten - wo sich das Modell fast ausschließlich auf den Auslöser konzentriert und eine erkennbare Struktur in den Pflegematrizen erzeugt. Wenn Sie vertiefen wollen, was die Aufmerksamkeit ist und wie es funktioniert, gibt es Informationen und technische Ressourcen, zum Beispiel dieser Wikipedia-Eintrag. Darüber hinaus beobachten Forscher Veränderungen in der Verteilung der Modellausgänge: Das Vorhandensein des Triggers reduziert die "Zufälligkeit" der Antworten und produziert viel deterministischer als übliche Ausgänge.

Das Tool kombiniert die Extraktion von Gedächtnisinhalten mit einer Analyse, die relevante Subketten erfasst und mittels Verlustfunktionen auswertet, um diese drei empirischen Signale zu erfassen. Das Ergebnis ist eine geordnete Liste von Kandidaten für Auslöser, die zusätzliche menschliche Inspektion verdient. In der Praxis extrahiert der Scanner zunächst Material, das das Modell gemerkt hat; dann sucht er nach Fragmenten, die als Auslöser wirken könnten; und schließlich punktet und ordnet diese Fragmente nach den detektierten Signaturen..

Es ist wichtig zu betonen, dass wir nicht mit einem Panacea konfrontiert sind. Das System braucht Zugriff auf die Modelldateien, so dass es nicht dient geschlossenen Eigentümer-Modelle, die nicht intern untersucht werden können. Es funktioniert am besten mit Back-Türen, die durch Textauslöser aktiviert werden, die determinative Antworten erzeugen; anspruchsvollere Angriffe oder basierend auf Code-Änderungen, Plugins oder externe Daten können es umgehen. Microsoft erkennt diese Einschränkungen an und beschreibt den Vorschlag als praktischen Schritt nach vorn, der in breitere Evaluierungsprozesse integriert werden kann.

Die Initiative kommt zu einer Zeit, in der Sicherheitsunternehmen und Geräte versuchen, sichere Entwicklungspraktiken an IA-getriebene Systeme anzupassen. Microsoft hat bekannt gegeben, dass es seinen sicheren Entwicklungs-Lebenszyklus (SDL) erweitern wird, um spezifische IA-Risiken - von der schnellen Injektion bis zur Datenvergiftung - einzubeziehen und fordert eine breitere Sicht auf den Trust-Perimeter, weil modellbasierte Systeme neue Input- und Risikovektoren einführen. Die offizielle Erklärung ist auf Microsofts Security-Blog verfügbar. Hier..

Microsoft präsentiert ein leichtes Werkzeug, um Hintertüren in Sprachmodellen ohne Umschulung zu erkennen
Bild generiert mit IA.

Die Erkennung von Hintertüren in Modellen ist kein neues Thema; die Literatur über Giftangriffe und Hintertüren in neuronalen Netzwerken entwickelt sich seit Jahren - zum Beispiel Werke wie BadNets und Studien zur Gewinnung von Daten, die als Carlini et al. ( Extrahieren von Trainingsdaten aus großen Sprachmodellen) die Grundlagen für diese Forschungslinien gelegt haben. Was Microsofts Team bietet, ist ein operativer Ansatz, um "Skalieren"-Modelle mit niedrigen falschen positiven Indizes zu scannen, unter Ausnutzung von internen Signalen, die in GPT-Familienmodellen reproduzierbar sind.

Praktisch bedeutet dies, dass Organisationen, die Open Source-Modelle, Integratoren oder Sicherheitsaudits verteilen, Werkzeuge wie diese einschließen können, um das Risiko zu reduzieren, dass ein eingesetztes Modell verstecktes Verhalten enthalten wird. Die Sicherheitsgemeinschaft stimmt jedoch zu, dass die vollständige Verteidigung eine Kombination aus statischer und dynamischer Analyse, Modellversorgungskettenkontrollen, guten Praktiken in der Ausbildung und offenen Kollaborationsdatensätzen zwischen Unternehmen, Wissenschaft und Regulierungsbehörden erfordert.

Kurz gesagt, Microsofts Arbeit ist ein Zeichen, dass die Sicherheit in IA ist gewachsen: Lösungen werden praktischer und auf den realen Einsatz ausgerichtet, aber mehr Forschung, Standards und Zusammenarbeit werden notwendig bleiben, um systemische Risiken zu mindern. Wenn Sie den ursprünglichen technischen Bericht lesen möchten, der die Scanner-Design und -Tests beschreibt, ist er im Vordruck-Repository verfügbar ( arXiv), und der Eintrag des Microsoft-Teams selbst erklärt den Ansatz aus einer operativen Perspektive in seinem Security-Blog Hier..

Deckung

Verwandte Artikel

Weitere Neuigkeiten zum selben Thema.