Illicit Großdestillation durch Klonierung von Claude und seiner Sicherheitsrisiken

Veröffentlicht 5 min de lectura 89 Lesen

Anthropic hat angekündigt, dass er Massenkampagnen entdeckte, um die Fähigkeiten seines Claude-Sprachmodells zu extrahieren und in Rivalenmodellen zu reproduzieren. Nach Angaben des Unternehmens, drei Unternehmen - identifiziert als DeepSeek, Moonshot AI und MiniMax - orchestrierten eine Reihe von betrügerischen Zugriffen, die Millionen von Austausch mit Claude durch falsche Konten und kommerzielle Proxy-Dienste erzeugt. Diese Arten von Operationen, die im Jargon als "Destillation" oder Destillationsangriffe bekannt sind, überprüfen nicht nur das geistige Eigentum der Entwickler von Avantgarde-Modellen, sondern stellen auch ernste öffentliche Sicherheitsrisiken dar, wenn diese Fähigkeiten ohne die ursprünglichen Garantien wiedergegeben werden.

Die betreffende Technik ist die Verwendung der Antworten eines leistungsfähigen Modells als Trainingsdaten für eine kleinere oder billigere. In legitimen Kontexten kann diese Praxis dazu dienen, effiziente Versionen eines Modells für weniger Ressourcengeräte zu erstellen. Wenn jedoch ein Konkurrent bewusst Antworten auf eine massive und verdeckte Weise zieht, ist es ein Kurzschluss, der Investitionen und ethische Kontrollen vermeidet und Repliken ohne die Einschränkungen produzieren kann, die von dem Unternehmen, das das ursprüngliche Modell erstellt. Anthropic erklärt in seiner eigenen Erklärung, wie er diese atypischen Gebrauchsmuster entdeckte und technische Details darüber verlinkt, wie er der Bedrohung in seinem offiziellen Blog gegenübersteht: Nachweis und Verhinderung von Destillerieangriffen.

Illicit Großdestillation durch Klonierung von Claude und seiner Sicherheitsrisiken
Bild generiert mit IA.

Nach der Forschung von Anthropic hatten die drei angreifenden Labore differenzierte Ziele: Einige konzentrierten sich auf komplexe Argumentierungsfunktionen und Reaktionen, die es erlauben, Zensoren zu umgehen, andere auf die Fähigkeit des Modells, Werkzeuge zu verwenden oder Code zu generieren, und andere auf Computer Vision Fähigkeiten und Agenten, die mit Software interagieren. Auffällig ist die Skala: Millionen von Austauschen durch Netzwerke von betrügerischen Konten und Proxies, die den Verkehr verbreiten, um die Erkennung schwierig zu machen. Anthropic weist sogar darauf hin, dass in einem Fall ein einziges Proxy-Netzwerk mehr als 20.000 falsche Konten zu einer Zeit betrieben, mischt schädlichen Verkehr mit legitimen Anträgen, den Missbrauch zu tarnen.

Hinter diesem technischen Kostüm gibt es Auswirkungen, die über kommerziellen Wettbewerb hinausgehen. Unkontrollierte kopierte Modelle können die Barrieren verlieren, die entworfen wurden, um schädliche Anwendungen zu vermeiden, was es staatlichen Akteuren oder Gruppen für schädliche Zwecke erleichtert, IA-Fähigkeiten für Disinformation, Massenüberwachung oder offensive Cyberoperationen anzupassen und zu bauen. Die Anthropen weisen darauf hin, dass die aus der illegalen Destillation resultierenden Modelle der Sicherheit und Minderung wahrscheinlicher sind und daher einen Risikovektor für die nationale Sicherheit und die öffentliche Stabilität darstellen. Um den Kontext zu den Beziehungen zwischen IA-Technologien und Sicherheitsbedrohungen zu erweitern, gibt es Analysen von Einrichtungen wie der Europäischen Agentur für Cybersicherheit (ENISA), die die mit der IA verbundene Bedrohungslandschaft erforschen: ENISA - Künstliche Intelligenz Bedrohung Landschaft.

Die operative Mechanik der enthüllten Kampagnen ist lehrreich: Der Zugang zu Claude wurde durch Konten für betrügerische Zwecke und durch Vermittler, die den Zugang zu Großmodellen weiterverkaufen, erhalten. Diese Proxy-Plattformen verwenden in der Regel "hydra-Cluster"-Architekturen, die es erlauben, blockierte Konten durch neue zu ersetzen, ohne die Extraktion zu unterbrechen. Zur Identifizierung und Attributierung der Kampagnen, Anthropische kombinierte Signale wie Anfrage Metadaten, IP-Adresse Korrelation und andere Infrastruktur-Indikatoren, so dass er spezifische Muster zu jedem betroffenen Labor verknüpfen und zu bestimmen, dass die Anträge nicht auf normale Verwendung, sondern auf einen bewussten Extraktionsaufwand reagierten.

Angesichts dieser Bedrohung hat die technische Antwort von Anthropic die Entwicklung von Klassifikatoren und verhaltensbezogenen Footprint-Systemen, die charakteristische Muster dieser Angriffe auf den API-Verkehr erkennen, sowie verbesserte Überprüfungsmaßnahmen für akademische Konten und Forschungs- und Startup-Programme enthalten. Darüber hinaus haben sie Schutzmaßnahmen zur Verringerung der Nutzbarkeit von Modellreaktionen für unerlaubte Kopien umgesetzt. Anthropic liefert weitere Informationen zu den Maßnahmen und Handelsbeschränkungen, die sie in einer anderen öffentlichen Anmerkung trifft: Aktualisierung der Verkaufsbeschränkungen in nicht unterstützte Regionen.

Dieser Fall ist nicht isoliert. In jüngster Zeit haben andere IA-Anbieter ähnliche Versuche zur Extraktion und Destillation auf ihren Modellen gemeldet, die ein systemisches Problem in den APIs Ökosystem und IA-Diensten belegen. Die wissenschaftliche und technische Literatur über die Modellextraktion hat ähnliche Techniken für Jahre gesammelt und Dokumente, warum APIs verletzlich sein können, wenn Vorhersagen Rohstoff werden, um Repliken zu trainieren. Eine repräsentative Arbeit in diesem Bereich ist die Studie, die den Diebstahl von Modellen durch öffentliche APIs analysiert: Stealing Machine Learning Modelle über Prediction APIs (arXiv).

Illicit Großdestillation durch Klonierung von Claude und seiner Sicherheitsrisiken
Bild generiert mit IA.

Die von dieser Episode angesprochenen Fragen sind sowohl technologische als auch regulatorische. Aus technischer Sicht besteht ein schwieriges Gleichgewicht zwischen offener und vorbeugender Erforschung und Schließung der Vektoren, die einen industriellen Missbrauch ermöglichen. Aus politischer Sicht besteht Zweifel daran, wie diese Praktiken auf richterlicher Grundlage verfolgt werden können, wenn Unternehmen und Infrastrukturen, die Missbrauch in Regionen mit unterschiedlichen Rechts- und Sicherheitsrahmen ermöglichen. Darüber hinaus stellt die Existenz von Akteuren, die über Kontennetze Zugang zu Skalenmodellen bieten, zusätzliche Herausforderungen der Compliance und Rechenschaftspflicht in digitalen Lieferketten dar.

Nicht alles ist verloren. Modellanbieter können das Risiko durch fortgeschrittene Erkennung, Identitätskontrollen und Grenzen in der Granularität von Antworten, die direkte Kopieren erleichtern, und Organisationen können in Audits und Wasserzeichen oder Überwachungstechniken von Schulungen investieren, die helfen zu erkennen, wenn ein Modell mit unerlaubten Material trainiert wurde. Für diejenigen, die praktische Empfehlungen und Sicherheitsmaßnahmen in maschinellen Lernumgebungen vertiefen wollen, bieten Initiativen wie die OWASP-Sicherheitsführer nützliche Hinweise: OWASP - Machine Learning Security Cheat Sheet.

Kurz gesagt, die Beschwerde von Anthropic stellt ein wachsendes Problem dar: Wenn die Kapazitätsextraktion industrialisiert ist, ist nicht nur die Wettbewerbsfähigkeit von Unternehmen, die in fortgeschrittene Forschung investieren, gefährdet, sondern auch die Vektoren, durch die IA für schädliche Zwecke verwendet werden kann, werden verstärkt. Die Technologiegemeinschaft, die Regulierungsbehörden und die Lieferanten selbst müssen sich gemeinsam zu technischen und rechtlichen Rissen bewegen und dabei sichere Kanäle für verantwortungsvolle Forschung und Innovation beibehalten. In der Zwischenzeit können solche Episoden erwartet werden, um bessere Sicherheitspraktiken und mehr Transparenz in einem schnelllebigen Sektor zu fördern.

Deckung

Verwandte Artikel

Weitere Neuigkeiten zum selben Thema.