Vor einigen Tagen zeigte eine öffentliche Untersuchung eine besonders alarmierende Form des Angriffs, der traditionelle Sicherheitsvektoren mit der neuen Realität von Codeassistenten kombiniert, die von künstlicher Intelligenz angetrieben werden. Die Orca Security-Firma taufte Schwäche als RoguePilot: ein Fehler in der Interaktion zwischen GitHub Codesaces und GitHub Copilot, die unter bestimmten Bedingungen einem Angreifer erlaubt, böswillige Anweisungen in einem Inzidenz (Problem) einzuführen und den IA-Assistenten zu erhalten, sie ohne den Entwickler-Notizing auszuführen.
Der Mechanismus ist im Aussehen einfach und dennoch gefährlich, da er zuverlässige Workflows nutzt. Wenn ein Benutzer eine Codesace aus dem Kontext eines Problems öffnet, erhält Copilot automatisch den Inhalt dieses Problems als Teil seiner Aufforderung. Ein schädlicher Schauspieler kann Befehle im Text verstecken (z.B. mit einem HTML-Kommentar wie ...) so dass das Modell sie als legitime Anweisungen verarbeitet. Mit der entsprechenden Aktionskette - zum Beispiel durch die Überprüfung oder Überprüfung einer speziell vorbereiteten Zuganforderung mit symbolischen Links und einem entfernten JSON-Schema - kann der Assistent dazu veranlassen, interne Dateien zu lesen und sensible Geheimnisse zu filtern, wie z.B. das Token mit GITHUB _ TOKEN Privilegien, auf vom Angreifer kontrollierte Server. Orca erklärt im Detail den Konzepttest in seinem Bericht: RoguePilot - Orca Security.

Microsoft und GitHub erhielten eine verantwortungsvolle Offenlegung und korrigierten das Problem, aber die Relevanz des Falles geht über einen bestimmten Patch hinaus. Dies ist eine neue Art von Bedrohung, die einige Experten bereits als passive oder indirekte sofortige Injektion: nicht direkt das Modell angreifen, sondern schädliche Inhalte in Geräte einfügen, die berechtigterweise von der LLM in automatisierten Strömen verbraucht werden. Mit anderen Worten, Entwicklerdaten werden zu einer Angreifer-Versorgungskette für die IA.
Diese Episode kommt zu einer Zeit, in der die Forschung auf Angriffe auf Sprachmodelle und autonome Agenten beschleunigt. Microsoft veröffentlichte vor kurzem eine Studie, die zeigt, wie Post-Deployment-Tuning-Techniken auf der Grundlage von Verstärkungslernen, wie die Group Relative Policy Optimization (GRPO), kann Sicherheitsmerkmale aus dem Modell entfernen, wenn auf eine negative Weise angewendet - ein Prozess, dass Forscher GRP-Obliteration -. Die Arbeit zeigt, dass selbst Beispiele anscheinend harmloser Eingabeaufforderung Modelle entsalzen und sie für schädliche Inhalte permissiv machen können; der technische Bericht ist auf der Microsoft-Seite verfügbar: Prompt Attack Breaks LLM Sicherheit - Microsoft Security und die GRPO-Studie kann bei arXiv.
Gleichzeitig haben andere Werke Seitenkanäle und Vektoren enthüllt, die die Angriffsfläche weiter erweitern: von Techniken, die es erlauben, das Thema eines Gesprächs oder sogar "reduzieren" Benutzerkonsultationen mit hoher Präzision, zu internen Optimierung von Modellen - wie die spekulative Decodierung- die, ohne es vorschlagen, Möglichkeiten der Ausbeutung eröffnen. Die in arXiv veröffentlichte Forschung analysiert diese Weisen und dokumentiert verschiedene Mechanismen, die es erlauben, Informationen zu filtern oder Muster der Nutzung abzuleiten: arXiv 2410.17175, arXiv 2411.01076.
Die Bedrohung ist nicht auf Texttipps beschränkt. HiddenLayer beschreibt einen Angriff namens Agenic ShadowLogic, der die Backdoors auf der Computer-Graphen-Ebene nutzt, um Werkzeuganrufe von Agenten abzufangen: der Angreifer kann in Echtzeit-Anfragen über seine eigene Infrastruktur umleiten, den Verkehr aufnehmen und dann die Anfrage an das reale Ziel weiterleiten, ohne dass der Benutzer eine Anomalie bemerkt. Das Risiko ist hoch, denn von der Oberfläche scheint alles richtig zu funktionieren, während kritische Informationen in den Schatten gesammelt werden. Weitere Details in der Veröffentlichung von HiddenLayer: Agenic ShadowLogic - HiddenLayer.
Im Bereich der Bilderzeugung wurden auch Sicherheitsfiltervermeidungstechniken gefunden. Neural Trust zeigte eine Taktik namens Semantic Chaining, wo ein Angreifer durch eine Reihe von aufeinanderfolgenden und anscheinend inokulierten Modifikationen an einem Bild das Modell zu einem verbotenen Ergebnis führen kann, das keine direkte Prüfung bestanden hätte. Diese Strategie erforscht den Mangel an "Vertiefung der Vernunft" in einigen Modellen, indem Sie sich mit Modifikationen auf einem vorhandenen Inhalt befassen, anstatt etwas von Grund auf zu schaffen; Sie können Ihre vollständige Erklärung hier lesen: Semantic Chaining - Neural Trust.
Diese Entdeckungen führten Forscher zu neuen Konzepten, um neue Bedrohungen zu beschreiben. Unter ihnen ist der Begriff Bitte, vorgeschlagen von einer Gruppe von Akademikern, die analysieren, wie schädlich-intent-designed Aufforderungen können typische Phasen einer Intrusion (initial access, escalation von Privilegien, laterale Bewegung, Exfiltration, etc.) unter Nutzung von Berechtigungen und Funktionen von Anwendungen, die LLMs bilden. Das technische Dokument, das die Idee vorstellt, ist in arXiv verfügbar, und Bruce Schneier kommentiert seine Auswirkungen aus einer praktischen Sicherheitsperspektive: Promptà - arXiv und Schneier's Spalte.
Was bedeutet das alles für Entwicklungsteams und Sicherheitsbeamte? Erstens sollten automatisierte Ströme, die externe Inhalte mit IA-Agenten integrieren, überprüft und gegebenenfalls isoliert werden. Es ist nicht sicher anzunehmen, dass der Text, der von einem Problem, einer PR oder einer Vorlage stammt, harmlos ist Diese Inputs sollten als unzuverlässige Daten behandelt werden und sollten sanitär und privilegiert werden Minimalitätsrichtlinien angewendet werden. Auf der betrieblichen Ebene ist es ratsam, Token und Anmeldeinformationen häufig zu rotieren, den Umfang der Token zu begrenzen, so dass sie nicht mehr Genehmigungen als unbedingt notwendig erteilen und die automatische Ausführung von Vorschlägen oder Aktionen in Umgebungen deaktivieren, die aus nicht überprüften Inhalten booten können.

Es liegt auch an Plattform-Anbietern und Modellentwicklern, um Verteidigung zu stärken: Verbesserung der Erkennung von Schnellinjektionen, Anwendung von Kontextkontrollen, die zwischen expliziten Benutzeranweisungen und geräteembedded Daten unterscheiden, und Design-Validierungsmechanismen, die verhindern, dass ein Agent auf versteckte oder versteckte Inhalte. Darüber hinaus wird die Erstellung von Rückverfolgbarkeits- und Auditsignalen - eine detaillierte Aufzeichnung darüber, wann und warum ein Agent Maßnahmen ergriffen hat - dazu beitragen, Vorfälle schneller zu erkennen und zu mildern.
RoguePilot ist eine starke Erinnerung, dass die Annahme von IA in realen Workflows große Vorteile bringt, aber auch die Komplexität der Angriffsfläche erhöht. Sicherheit vermeidet nicht mehr nur Exploits auf Servern oder Bibliotheken: Es beinhaltet die Kontrolle, was ein IA versteht und läuft, wenn es Ihnen mit realen Weltdaten zugeführt wird. Die Zusammenarbeit zwischen Forschern, Lieferanten und Produktmanagern sowie die verantwortungsvolle Offenlegung und die rasche Anwendung von Minderungen werden für den weiteren Wert dieser Systeme von entscheidender Bedeutung sein, ohne ein inakzeptables Risikovektor zu werden.
Wenn Sie in die ursprünglichen Quellen gehen möchten, sehen Sie Orcas technische Analyse von RoguePilot ( Orca Sicherheit), Microsofts Untersuchungen zu LLMs Sicherheitsangriffen ( Microsoft Security Blog), akademische Dokumente in arXiv, der HiddenLayer-Bericht über Agenic ShadowLogic ( Versteckt) und das Stück Neural Trust auf Semantic Chaining ( Neural Trust), unter anderem kritische Lesungen, um die Entwicklung dieser Bedrohungen besser zu verstehen.
Verwandte Artikel
Weitere Neuigkeiten zum selben Thema.

Sicherheitswarnung Droge kritische Schwachstelle der SQL-Injektion in PostgreSQL erfordert sofortige Aktualisierung
Drucal hat Sicherheitsupdates für eine Sicherheitsanfälligkeit veröffentlicht, die als "hochkritisch" die Auswirkungen Drumal Core und ermöglicht es einem Angreifer, willkürlich...

18-jährige ukrainische Jugend führt ein Netzwerk von Infostealern, die 28,000 Konten verletzt und $250.000 Verluste hinterlassen
Die ukrainischen Behörden, in Abstimmung mit US-Agenten. Sie haben sich auf eine Operation konzentriert Infostealer die laut der ukrainischen Cyber Police von Odessa angeblich v...

RAMPART und Clarity neu definieren die Sicherheit von IA-Agenten mit reproduzierbaren Tests und Governance von Anfang an
Microsoft hat zwei Open Source-Tools, RAMPART und Clarity vorgestellt, die darauf abzielen, die Sicherheit der IA-Agenten zu ändern: eine, die technische Tests automatisiert und...

Die digitale Signatur ist im Check: Microsoft befehligt einen Dienst, der Malware in scheinbar legitime Software verwandelt
Microsoft kündigte die Desartikulation einer "Malware-signing-as-a-Service" Operation, die sein Gerät Signatur-System ausgenutzt, um schädlichen Code in scheinbar legitime binär...

Ein einziger GitHub-Workflow-Token öffnete die Tür zur Software-Lieferkette
Ein einziger GitHub-Workflow-Token scheiterte in der Rotation und öffnete die Tür. Dies ist die zentrale Schlussfolgerung des Vorfalls in Grafana Labs nach der jüngsten Welle vo...

WebWorm 2025: die Malware, die in Discord und Microsoft Graphh versteckt ist, um die Erkennung zu umgehen
Die neuesten Beobachtungen von Cyber-Sicherheitsforschern weisen auf eine Veränderung der besorgniserregenden Taktik eines Schauspielers hin, der mit China verbunden ist. WebWor...

Identität ist nicht mehr genug: kontinuierliche Überprüfung des Gerätes für Echtzeitsicherheit
Identität bleibt das Rückgrat vieler Sicherheitsarchitekturen, aber heute knackt diese Spalte unter neuen Drücken: fortgeschrittene Phishing, Echtzeit-Proxy-Authentifizierungski...