RoguePilot: die Schwachstelle, die GitHubs Vorfälle in einen Angriffsvektor für die IA verwandelt

Veröffentlicht 6 min de lectura 405 Lesen

Vor einigen Tagen zeigte eine öffentliche Untersuchung eine besonders alarmierende Form des Angriffs, der traditionelle Sicherheitsvektoren mit der neuen Realität von Codeassistenten kombiniert, die von künstlicher Intelligenz angetrieben werden. Die Orca Security-Firma taufte Schwäche als RoguePilot: ein Fehler in der Interaktion zwischen GitHub Codesaces und GitHub Copilot, die unter bestimmten Bedingungen einem Angreifer erlaubt, böswillige Anweisungen in einem Inzidenz (Problem) einzuführen und den IA-Assistenten zu erhalten, sie ohne den Entwickler-Notizing auszuführen.

Der Mechanismus ist im Aussehen einfach und dennoch gefährlich, da er zuverlässige Workflows nutzt. Wenn ein Benutzer eine Codesace aus dem Kontext eines Problems öffnet, erhält Copilot automatisch den Inhalt dieses Problems als Teil seiner Aufforderung. Ein schädlicher Schauspieler kann Befehle im Text verstecken (z.B. mit einem HTML-Kommentar wie ...) so dass das Modell sie als legitime Anweisungen verarbeitet. Mit der entsprechenden Aktionskette - zum Beispiel durch die Überprüfung oder Überprüfung einer speziell vorbereiteten Zuganforderung mit symbolischen Links und einem entfernten JSON-Schema - kann der Assistent dazu veranlassen, interne Dateien zu lesen und sensible Geheimnisse zu filtern, wie z.B. das Token mit GITHUB _ TOKEN Privilegien, auf vom Angreifer kontrollierte Server. Orca erklärt im Detail den Konzepttest in seinem Bericht: RoguePilot - Orca Security.

RoguePilot: die Schwachstelle, die GitHubs Vorfälle in einen Angriffsvektor für die IA verwandelt
Bild generiert mit IA.

Microsoft und GitHub erhielten eine verantwortungsvolle Offenlegung und korrigierten das Problem, aber die Relevanz des Falles geht über einen bestimmten Patch hinaus. Dies ist eine neue Art von Bedrohung, die einige Experten bereits als passive oder indirekte sofortige Injektion: nicht direkt das Modell angreifen, sondern schädliche Inhalte in Geräte einfügen, die berechtigterweise von der LLM in automatisierten Strömen verbraucht werden. Mit anderen Worten, Entwicklerdaten werden zu einer Angreifer-Versorgungskette für die IA.

Diese Episode kommt zu einer Zeit, in der die Forschung auf Angriffe auf Sprachmodelle und autonome Agenten beschleunigt. Microsoft veröffentlichte vor kurzem eine Studie, die zeigt, wie Post-Deployment-Tuning-Techniken auf der Grundlage von Verstärkungslernen, wie die Group Relative Policy Optimization (GRPO), kann Sicherheitsmerkmale aus dem Modell entfernen, wenn auf eine negative Weise angewendet - ein Prozess, dass Forscher GRP-Obliteration -. Die Arbeit zeigt, dass selbst Beispiele anscheinend harmloser Eingabeaufforderung Modelle entsalzen und sie für schädliche Inhalte permissiv machen können; der technische Bericht ist auf der Microsoft-Seite verfügbar: Prompt Attack Breaks LLM Sicherheit - Microsoft Security und die GRPO-Studie kann bei arXiv.

Gleichzeitig haben andere Werke Seitenkanäle und Vektoren enthüllt, die die Angriffsfläche weiter erweitern: von Techniken, die es erlauben, das Thema eines Gesprächs oder sogar "reduzieren" Benutzerkonsultationen mit hoher Präzision, zu internen Optimierung von Modellen - wie die spekulative Decodierung- die, ohne es vorschlagen, Möglichkeiten der Ausbeutung eröffnen. Die in arXiv veröffentlichte Forschung analysiert diese Weisen und dokumentiert verschiedene Mechanismen, die es erlauben, Informationen zu filtern oder Muster der Nutzung abzuleiten: arXiv 2410.17175, arXiv 2411.01076.

Die Bedrohung ist nicht auf Texttipps beschränkt. HiddenLayer beschreibt einen Angriff namens Agenic ShadowLogic, der die Backdoors auf der Computer-Graphen-Ebene nutzt, um Werkzeuganrufe von Agenten abzufangen: der Angreifer kann in Echtzeit-Anfragen über seine eigene Infrastruktur umleiten, den Verkehr aufnehmen und dann die Anfrage an das reale Ziel weiterleiten, ohne dass der Benutzer eine Anomalie bemerkt. Das Risiko ist hoch, denn von der Oberfläche scheint alles richtig zu funktionieren, während kritische Informationen in den Schatten gesammelt werden. Weitere Details in der Veröffentlichung von HiddenLayer: Agenic ShadowLogic - HiddenLayer.

Im Bereich der Bilderzeugung wurden auch Sicherheitsfiltervermeidungstechniken gefunden. Neural Trust zeigte eine Taktik namens Semantic Chaining, wo ein Angreifer durch eine Reihe von aufeinanderfolgenden und anscheinend inokulierten Modifikationen an einem Bild das Modell zu einem verbotenen Ergebnis führen kann, das keine direkte Prüfung bestanden hätte. Diese Strategie erforscht den Mangel an "Vertiefung der Vernunft" in einigen Modellen, indem Sie sich mit Modifikationen auf einem vorhandenen Inhalt befassen, anstatt etwas von Grund auf zu schaffen; Sie können Ihre vollständige Erklärung hier lesen: Semantic Chaining - Neural Trust.

Diese Entdeckungen führten Forscher zu neuen Konzepten, um neue Bedrohungen zu beschreiben. Unter ihnen ist der Begriff Bitte, vorgeschlagen von einer Gruppe von Akademikern, die analysieren, wie schädlich-intent-designed Aufforderungen können typische Phasen einer Intrusion (initial access, escalation von Privilegien, laterale Bewegung, Exfiltration, etc.) unter Nutzung von Berechtigungen und Funktionen von Anwendungen, die LLMs bilden. Das technische Dokument, das die Idee vorstellt, ist in arXiv verfügbar, und Bruce Schneier kommentiert seine Auswirkungen aus einer praktischen Sicherheitsperspektive: Promptà - arXiv und Schneier's Spalte.

Was bedeutet das alles für Entwicklungsteams und Sicherheitsbeamte? Erstens sollten automatisierte Ströme, die externe Inhalte mit IA-Agenten integrieren, überprüft und gegebenenfalls isoliert werden. Es ist nicht sicher anzunehmen, dass der Text, der von einem Problem, einer PR oder einer Vorlage stammt, harmlos ist Diese Inputs sollten als unzuverlässige Daten behandelt werden und sollten sanitär und privilegiert werden Minimalitätsrichtlinien angewendet werden. Auf der betrieblichen Ebene ist es ratsam, Token und Anmeldeinformationen häufig zu rotieren, den Umfang der Token zu begrenzen, so dass sie nicht mehr Genehmigungen als unbedingt notwendig erteilen und die automatische Ausführung von Vorschlägen oder Aktionen in Umgebungen deaktivieren, die aus nicht überprüften Inhalten booten können.

RoguePilot: die Schwachstelle, die GitHubs Vorfälle in einen Angriffsvektor für die IA verwandelt
Bild generiert mit IA.

Es liegt auch an Plattform-Anbietern und Modellentwicklern, um Verteidigung zu stärken: Verbesserung der Erkennung von Schnellinjektionen, Anwendung von Kontextkontrollen, die zwischen expliziten Benutzeranweisungen und geräteembedded Daten unterscheiden, und Design-Validierungsmechanismen, die verhindern, dass ein Agent auf versteckte oder versteckte Inhalte. Darüber hinaus wird die Erstellung von Rückverfolgbarkeits- und Auditsignalen - eine detaillierte Aufzeichnung darüber, wann und warum ein Agent Maßnahmen ergriffen hat - dazu beitragen, Vorfälle schneller zu erkennen und zu mildern.

RoguePilot ist eine starke Erinnerung, dass die Annahme von IA in realen Workflows große Vorteile bringt, aber auch die Komplexität der Angriffsfläche erhöht. Sicherheit vermeidet nicht mehr nur Exploits auf Servern oder Bibliotheken: Es beinhaltet die Kontrolle, was ein IA versteht und läuft, wenn es Ihnen mit realen Weltdaten zugeführt wird. Die Zusammenarbeit zwischen Forschern, Lieferanten und Produktmanagern sowie die verantwortungsvolle Offenlegung und die rasche Anwendung von Minderungen werden für den weiteren Wert dieser Systeme von entscheidender Bedeutung sein, ohne ein inakzeptables Risikovektor zu werden.

Wenn Sie in die ursprünglichen Quellen gehen möchten, sehen Sie Orcas technische Analyse von RoguePilot ( Orca Sicherheit), Microsofts Untersuchungen zu LLMs Sicherheitsangriffen ( Microsoft Security Blog), akademische Dokumente in arXiv, der HiddenLayer-Bericht über Agenic ShadowLogic ( Versteckt) und das Stück Neural Trust auf Semantic Chaining ( Neural Trust), unter anderem kritische Lesungen, um die Entwicklung dieser Bedrohungen besser zu verstehen.

Deckung

Verwandte Artikel

Weitere Neuigkeiten zum selben Thema.