Microsoft präsentiert ein leichtes Werkzeug, um Hintertüren in Sprachmodellen ohne Umschulung zu erkennen

Microsoft hat ein Licht-Tool vorgestellt, um versteckte Hintertüren in Open Source-Sprachmodellen zu identifizieren, ein wachsendes Anliegen in der Welt der künstlichen Intelligenz. Einfach gesagt ist eine Hintertür in einem Modell ein schädliches Verhalten, das während des Trainings inaktiv bleibt, bis ein bestimmter Reiz - der sogenannte Trigger - erscheint und dann das Modell unerwartet oder schädlich wirkt.

Der Vorschlag, der vom IA-Sicherheitsteam des Unternehmens beschrieben und in einem öffentlichen Dokument zur Verfügung steht, kombiniert beobachtbare Signale des internen Verhaltens der Modelle, um anzuzeigen, wann eine solche Manipulation stattfinden kann. Die Gnade des Ansatzes ist, dass es nicht erfordert, das Modell zu retrainieren oder im Voraus zu wissen, was die Hintertür ist., die es eine praktische Möglichkeit macht, große Mengen an GPT-Modellen zu überprüfen, solange Sie Zugang zu Ihren Gewichten haben.

Microsoft präsentiert ein leichtes Werkzeug, um Hintertüren in Sprachmodellen ohne Umschulung zu erkennen — Bild generiert mit IA.

Um zu verstehen, warum es darum geht, ist es wichtig, sich an zwei Tatsachen zu erinnern, die von früheren Forschern gezeigt wurden: Die großen Sprachmodelle können Fragmente der Daten, in denen sie geschult wurden, merken, und die Erinnerung macht es einfacher, bestimmte Beispiele (einschließlich Trigger) durch Gedächtnisextraktionstechniken wiederherzustellen. Microsoft ist Teil dieser Beobachtung und fügt hinzu, dass, wenn ein Trigger in der Eingabe erscheint, bestimmte interne Indikatoren des Modells reproduzierbar ändern.

Diese Indikatoren umfassen unverwechselbare Muster in den Köpfen der Aufmerksamkeit - ein Schlüsselmechanismus, der entscheidet, welche Teile des Textes gewichtet werden sollten - wo sich das Modell fast ausschließlich auf den Auslöser konzentriert und eine erkennbare Struktur in den Pflegematrizen erzeugt. Wenn Sie vertiefen wollen, was die Aufmerksamkeit ist und wie es funktioniert, gibt es Informationen und technische Ressourcen, zum Beispiel dieser Wikipedia-Eintrag. Darüber hinaus beobachten Forscher Veränderungen in der Verteilung der Modellausgänge: Das Vorhandensein des Triggers reduziert die "Zufälligkeit" der Antworten und produziert viel deterministischer als übliche Ausgänge.

Das Tool kombiniert die Extraktion von Gedächtnisinhalten mit einer Analyse, die relevante Subketten erfasst und mittels Verlustfunktionen auswertet, um diese drei empirischen Signale zu erfassen. Das Ergebnis ist eine geordnete Liste von Kandidaten für Auslöser, die zusätzliche menschliche Inspektion verdient. In der Praxis extrahiert der Scanner zunächst Material, das das Modell gemerkt hat; dann sucht er nach Fragmenten, die als Auslöser wirken könnten; und schließlich punktet und ordnet diese Fragmente nach den detektierten Signaturen..

Es ist wichtig zu betonen, dass wir nicht mit einem Panacea konfrontiert sind. Das System braucht Zugriff auf die Modelldateien, so dass es nicht dient geschlossenen Eigentümer-Modelle, die nicht intern untersucht werden können. Es funktioniert am besten mit Back-Türen, die durch Textauslöser aktiviert werden, die determinative Antworten erzeugen; anspruchsvollere Angriffe oder basierend auf Code-Änderungen, Plugins oder externe Daten können es umgehen. Microsoft erkennt diese Einschränkungen an und beschreibt den Vorschlag als praktischen Schritt nach vorn, der in breitere Evaluierungsprozesse integriert werden kann.

Die Initiative kommt zu einer Zeit, in der Sicherheitsunternehmen und Geräte versuchen, sichere Entwicklungspraktiken an IA-getriebene Systeme anzupassen. Microsoft hat bekannt gegeben, dass es seinen sicheren Entwicklungs-Lebenszyklus (SDL) erweitern wird, um spezifische IA-Risiken - von der schnellen Injektion bis zur Datenvergiftung - einzubeziehen und fordert eine breitere Sicht auf den Trust-Perimeter, weil modellbasierte Systeme neue Input- und Risikovektoren einführen. Die offizielle Erklärung ist auf Microsofts Security-Blog verfügbar. Hier..

Die Erkennung von Hintertüren in Modellen ist kein neues Thema; die Literatur über Giftangriffe und Hintertüren in neuronalen Netzwerken entwickelt sich seit Jahren - zum Beispiel Werke wie BadNets und Studien zur Gewinnung von Daten, die als Carlini et al. ( Extrahieren von Trainingsdaten aus großen Sprachmodellen) die Grundlagen für diese Forschungslinien gelegt haben. Was Microsofts Team bietet, ist ein operativer Ansatz, um "Skalieren"-Modelle mit niedrigen falschen positiven Indizes zu scannen, unter Ausnutzung von internen Signalen, die in GPT-Familienmodellen reproduzierbar sind.

Praktisch bedeutet dies, dass Organisationen, die Open Source-Modelle, Integratoren oder Sicherheitsaudits verteilen, Werkzeuge wie diese einschließen können, um das Risiko zu reduzieren, dass ein eingesetztes Modell verstecktes Verhalten enthalten wird. Die Sicherheitsgemeinschaft stimmt jedoch zu, dass die vollständige Verteidigung eine Kombination aus statischer und dynamischer Analyse, Modellversorgungskettenkontrollen, guten Praktiken in der Ausbildung und offenen Kollaborationsdatensätzen zwischen Unternehmen, Wissenschaft und Regulierungsbehörden erfordert.

Kurz gesagt, Microsofts Arbeit ist ein Zeichen, dass die Sicherheit in IA ist gewachsen: Lösungen werden praktischer und auf den realen Einsatz ausgerichtet, aber mehr Forschung, Standards und Zusammenarbeit werden notwendig bleiben, um systemische Risiken zu mindern. Wenn Sie den ursprünglichen technischen Bericht lesen möchten, der die Scanner-Design und -Tests beschreibt, ist er im Vordruck-Repository verfügbar ( arXiv), und der Eintrag des Microsoft-Teams selbst erklärt den Ansatz aus einer operativen Perspektive in seinem Security-Blog Hier..

Deckung

Verwandte Artikel

Weitere Neuigkeiten zum selben Thema.

20. Mai 2026 4 min de lectura 16

18-jährige ukrainische Jugend führt ein Netzwerk von Infostealern, die 28,000 Konten verletzt und $250.000 Verluste hinterlassen

Die ukrainischen Behörden, in Abstimmung mit US-Agenten. Sie haben sich auf eine Operation konzentriert Infostealer die laut der ukrainischen Cyber Police von Odessa angeblich v...

20. Mai 2026 3 min de lectura 20

RAMPART und Clarity neu definieren die Sicherheit von IA-Agenten mit reproduzierbaren Tests und Governance von Anfang an

Microsoft hat zwei Open Source-Tools, RAMPART und Clarity vorgestellt, die darauf abzielen, die Sicherheit der IA-Agenten zu ändern: eine, die technische Tests automatisiert und...

20. Mai 2026 3 min de lectura 22

Die digitale Signatur ist im Check: Microsoft befehligt einen Dienst, der Malware in scheinbar legitime Software verwandelt

Microsoft kündigte die Desartikulation einer "Malware-signing-as-a-Service" Operation, die sein Gerät Signatur-System ausgenutzt, um schädlichen Code in scheinbar legitime binär...

Ein einziger GitHub-Workflow-Token öffnete die Tür zur Software-Lieferkette

20. Mai 2026 4 min de lectura 10

Radargeräte entdecken

Microsoft präsentiert ein leichtes Werkzeug, um Hintertüren in Sprachmodellen ohne Umschulung zu erkennen

Anzeigenblocker deaktivieren

Microsoft präsentiert ein leichtes Werkzeug, um Hintertüren in Sprachmodellen ohne Umschulung zu erkennen

Verwandte Artikel

18-jährige ukrainische Jugend führt ein Netzwerk von Infostealern, die 28,000 Konten verletzt und $250.000 Verluste hinterlassen

RAMPART und Clarity neu definieren die Sicherheit von IA-Agenten mit reproduzierbaren Tests und Governance von Anfang an

Die digitale Signatur ist im Check: Microsoft befehligt einen Dienst, der Malware in scheinbar legitime Software verwandelt

Ein einziger GitHub-Workflow-Token öffnete die Tür zur Software-Lieferkette

WebWorm 2025: die Malware, die in Discord und Microsoft Graphh versteckt ist, um die Erkennung zu umgehen

Identität ist nicht mehr genug: kontinuierliche Überprüfung des Gerätes für Echtzeitsicherheit

Die dunkle Identitätsfrage verändert die Regeln der Unternehmenssicherheit

Ihre Cookies verwalten