Distillation illicite à grande échelle par clonage Claude et ses risques pour la sécurité

Publié 6 min de lectura 92 lecture

Anthropic a annoncé qu'il avait détecté des campagnes de masse destinées à extraire les capacités de son modèle de langage Claude et à les reproduire dans des modèles rivaux. Selon l'entreprise, trois entreprises - identifiées comme DeepSeek, Moonshot AI et MiniMax - ont orchestré un ensemble d'accès frauduleux qui ont généré des millions d'échanges avec Claude par le biais de faux comptes et de services de proxy commerciaux. Ces types d'opérations, connus dans le jargon sous le nom de "distillation" ou d'attaques à la distillation, non seulement contrôlent la propriété intellectuelle des développeurs de modèles d'avant-garde, mais aussi posent de sérieux risques pour la sécurité publique lorsque ces capacités sont reproduites sans les garanties originales.

La technique en question consiste à utiliser les réponses d'un modèle puissant comme données de formation pour un modèle plus petit ou moins cher. Dans des contextes légitimes, cette pratique peut servir à créer des versions efficaces d'un modèle pour moins de dispositifs de ressources. Cependant, lorsqu'un concurrent tire délibérément des réponses d'une manière massive et secrète, c'est un raccourci qui évite les investissements et les contrôles éthiques, et peut produire des répliques sans les limitations conçues par l'entreprise qui a créé le modèle original. Anthropic explique dans sa propre déclaration comment il a détecté ces modes d'utilisation atypiques et lie des détails techniques sur la façon dont il fait face à la menace dans son blog officiel: Détection et prévention des attaques de distillerie.

Distillation illicite à grande échelle par clonage Claude et ses risques pour la sécurité
Image générée avec IA.

Selon les recherches d'Anthropic, les trois laboratoires attaquants avaient des objectifs différenciés : certains étaient axés sur des capacités de raisonnement complexes et des réponses permettant d'évacuer les censeurs, d'autres sur la capacité du modèle à utiliser des outils ou à générer du code, et d'autres sur les capacités de vision informatique et les agents qui interagissent avec les logiciels. Ce qui est frappant, c'est l'échelle : des millions d'échanges orchestrés par des réseaux de comptes et de procurations frauduleux qui distribuent le trafic pour rendre la détection difficile. Anthropique souligne même que dans un cas un seul réseau mandataire exploitait plus de 20 000 faux comptes à la fois, mélangeant trafic malveillant avec des demandes légitimes de camouflage de l'abus.

Derrière ce costume technique il y a des implications qui vont au-delà de la concurrence commerciale. Les modèles copiés non contrôlés peuvent perdre les barrières conçues pour éviter les utilisations nuisibles, ce qui permet aux acteurs ou groupes d'État, à des fins malveillantes, d'adapter et de «construire» les capacités de l'IV pour la désinformation, la surveillance de masse ou les cyberopérations offensives. Anthropique souligne cela parce que, à son avis, les modèles résultant de la distillation illicite sont plus susceptibles de manquer de sécurité et d'atténuation, et représentent donc un vecteur de risque pour la sécurité nationale et la stabilité publique. Afin d'élargir le contexte sur la relation entre les technologies de l'IA et les menaces pour la sécurité, il existe des analyses d'organismes tels que l'Agence de l'Union européenne pour la cybersécurité (ENISA) qui explorent le paysage de la menace associé à l'IA: ENISA - L'intelligence artificielle menace paysage.

La mécanique opérationnelle des campagnes révélées est instructive : l'accès à Claude a été obtenu par des comptes créés à des fins frauduleuses et par des intermédiaires qui revendent l'accès à des modèles à grande échelle. Ces plates-formes proxy utilisent généralement des architectures "hydra cluster" qui permettent de remplacer les comptes bloqués par de nouveaux sans interrompre l'extraction. Afin d'identifier et d'attribuer les campagnes, Anthropic a combiné des signaux tels que les métadonnées des demandes, la corrélation des adresses IP et d'autres indicateurs d'infrastructure, ce qui lui a permis de lier des modèles spécifiques à chaque laboratoire concerné et de déterminer que les demandes ne répondaient pas à une utilisation normale mais à un effort délibéré d'extraction.

Face à cette menace, la réponse technique d'Anthropic a inclus le développement de classificateurs et de systèmes d'empreinte comportementale qui détectent les modèles caractéristiques de ces attaques sur le trafic API, ainsi que des mesures de vérification améliorées pour les comptes universitaires et les programmes de recherche et de démarrage. Ils ont également mis en place des garanties visant à réduire l'utilité des solutions types pour former des copies illicites. Anthropic fournit plus d'informations sur les mesures et les restrictions commerciales qu'elle applique dans une autre note publique: Mise à jour des restrictions de vente aux régions non soutenues.

Ce cas n'est pas isolé. Ces derniers temps, d'autres fournisseurs d'IA ont signalé des tentatives similaires d'extraction et de distillation sur leurs modèles, qui montrent un problème systémique dans l'écosystème des API et les services d'IA. La littérature académique et technique sur l'extraction de modèles a recueilli des techniques similaires depuis des années et documente pourquoi les API peuvent être vulnérables lorsque les prédictions deviennent des matières premières pour former des répliques. Un travail représentatif dans ce domaine est l'étude qui analyse le vol de modèles au moyen d'API publiques : Voler des modèles d'apprentissage automatique via des API de prévision (arXiv).

Distillation illicite à grande échelle par clonage Claude et ses risques pour la sécurité
Image générée avec IA.

Les questions soulevées par cet épisode sont à la fois technologiques et réglementaires. D'un point de vue technique, il existe un équilibre difficile entre l'accès ouvert et préventif à la recherche légitime et la fermeture des vecteurs qui permettent les abus industriels. D'un point de vue politique, il existe des doutes quant à la manière de poursuivre ces pratiques sur une base juridictionnelle lorsque des entreprises et des infrastructures qui permettent des abus opèrent dans des régions dotées de cadres juridiques et de sécurité différents. En outre, l'existence d'acteurs offrant l'accès à des modèles d'échelle par le biais de réseaux de comptes pose des problèmes supplémentaires de conformité et de responsabilité dans les chaînes d'approvisionnement numériques.

Tout n'est pas perdu. Les fournisseurs de modèles peuvent atténuer les risques grâce à une détection avancée, à des contrôles d'identité et à des limites dans la granularité des réponses qui facilitent la copie directe, et les organisations peuvent investir dans des audits et des techniques de filigrane ou de surveillance à partir d'une formation qui aide à détecter lorsqu'un modèle a été formé avec du matériel obtenu illicitement. Pour ceux qui veulent approfondir les recommandations pratiques et les mesures de sécurité dans les environnements d'apprentissage automatique, des initiatives telles que les guides de sécurité de l'OWASP fournissent des conseils utiles : OWASP - Machine Learning Sécurité Cheat Sheet.

En bref, la plainte d'Anthropic pose un problème croissant : lorsque l'extraction de la capacité est industrialisée, non seulement la compétitivité des entreprises qui investissent dans la recherche avancée est menacée, mais aussi les vecteurs par lesquels l'IA peut être utilisée à des fins nuisibles sont amplifiés. La communauté technologique, les organismes de réglementation et les fournisseurs eux-mêmes doivent agir ensemble pour combler les lacunes techniques et juridiques, tout en maintenant des canaux sûrs de recherche et d'innovation responsables. En attendant, on peut s'attendre à ce que des épisodes comme celui-ci conduisent à de meilleures pratiques de sécurité et à une plus grande transparence dans un secteur en évolution rapide.

Couverture

Autres

Plus de nouvelles sur le même sujet.