Distilação ilícita em grande escala clonando Claude e seus riscos de segurança

Publicada 6 min de lectura 90 leituras

Anthropic anunciou que detectou campanhas massivas concebidas para extrair as capacidades de seu modelo de linguagem Claude e reproduzi-las em modelos rivais. Segundo a empresa, três empresas — identificadas como DeepSeek, Moonshot AI e MiniMax — orquestraram um conjunto de acessos fraudulentos que geraram milhões de trocas com Claude através de contas falsas e serviços proxy comerciais. Este tipo de operações, conhecido como ataques de “distillation” ou destilação, não só põe em causa a propriedade intelectual dos desenvolvedores de modelos de vanguarda, mas também levanta sérios riscos de segurança pública quando essas capacidades são reproduzidas sem as salvaguardas originais.

A técnica em questão consiste em usar as respostas de um modelo potente como dados de treinamento para um menor ou mais barato. Em contextos legítimos, essa prática pode servir para criar versões eficientes de um modelo para dispositivos com menos recursos. No entanto, quando um concorrente tira deliberadamente respostas de forma massiva e dissimulada, trata-se de um atalho que esquiva investimentos e controles éticos, e que pode produzir réplicas sem as limitações projetadas pela empresa que criou o modelo original. Anthropic explica em seu próprio comunicado como detectou esses padrões atípicos de uso e linka detalhes técnicos sobre como está enfrentando a ameaça em seu blog oficial: Detecting and preventing distillation attacks.

Distilação ilícita em grande escala clonando Claude e seus riscos de segurança
Imagem gerada com IA.

Segundo a pesquisa de Anthropic, os três laboratórios atacantes tinham objetivos diferenciados: alguns se centraram em capacidades de raciocínio complexas e em respostas que permitem contornar censuras, outros na habilidade do modelo para usar ferramentas ou gerar código, e outros em capacidades de visão por computador e agentes que interagem com software. O que chama a atenção é a escala: milhões de intercâmbios orquestrados através de redes de contas fraudulentas e proxies que distribuem o tráfego para dificultar a detecção. Anthropic ainda afirma que em um caso uma única rede proxy operou mais de 20.000 contas falsas ao mesmo tempo, misturando tráfico malicioso com pedidos legítimos para camuflar o abuso.

Por trás desse disfarce técnico há implicações que vão além da concorrência comercial. Os modelos copiados sem controlos podem perder as barreiras concebidas para evitar usos prejudiciais, facilitando que atores estatais ou grupos para fins maliciosos adaptem e “armen” capacidades de IA para desinformação, vigilância maciça ou ciberoperações ofensivas. Anthropic sublinha-o porque, em sua opinião, os modelos resultantes de uma distilação ilícita são mais propensos a carências em segurança e mitigações, e portanto representam um vetor de risco para a segurança nacional e a estabilidade pública. Para ampliar o contexto da relação entre tecnologias de IA e ameaças à segurança, existem análises de organismos como a Agência da União Europeia para a Cibersegurança (ENISA) que exploram o panorama das ameaças associadas à IA: ENISA — Artificial Intelligence Threat Landscape.

A mecânica operacional das campanhas reveladas é instrutiva: o acesso a Claude foi obtido mediante contas criadas para fins fraudulentos e através de intermediários que revendem acesso a modelos em larga escala. Estas plataformas proxy costumam usar arquiteturas tipo “hydra cluster” que permitem substituir contas bloqueadas por outras novas sem interromper a extração. Para identificar e atribuir as campanhas, Anthropic combinou sinais como metadados dos pedidos, correlação de endereços IP e outros indicadores de infraestrutura, o que lhe permitiu vincular padrões concretos a cada laboratório envolvido e determinar que os pedidos não respondiam a um uso normal, mas a um esforço deliberado de extração.

Diante desta ameaça, a resposta técnica de Anthropic incluiu o desenvolvimento de classificadores e sistemas de impressão comportamental que detectam padrões característicos desses ataques no tráfego da API, bem como medidas de verificação reforçadas para contas acadêmicas e programas de pesquisa e startups. Também implementaram salvaguardas para reduzir a utilidade que podem ter as respostas do modelo para treinar cópias ilícitas. Anthropic fornece mais informações sobre as medidas e as restrições comerciais que aplicam em outra nota pública: Updating restrictions of sais to unsupported regions.

Este caso não é isolado. Em datas recentes, outros provedores de IA relataram tentativas semelhantes de extração e distilação sobre seus modelos, o que evidencia um problema sistêmico no ecossistema de APIs e serviços de IA. A literatura acadêmica e técnica sobre extração de modelos recolhe técnicas similares há anos e documenta por que os APIs podem ser vulneráveis quando as previsões se tornam matéria-prima para treinar réplicas. Um trabalho representativo neste campo é o estudo que analisa o roubo de modelos através de APIs públicas: Stealing Machine Learning Models via Prediction APIs (arXiv).

Distilação ilícita em grande escala clonando Claude e seus riscos de segurança
Imagem gerada com IA.

As perguntas deste episódio são tanto tecnológicas como regulatórias. Do ponto de vista técnico, há um equilíbrio difícil entre oferecer acesso aberto e preventivo para pesquisa legítima, e fechar os vetores que permitem o abuso industrializado. Do ponto de vista normativo, surgem dúvidas sobre como perseguir tribunais essas práticas quando as empresas e as infra-estruturas que permitem o abuso operam em regiões com quadros jurídicos e de segurança diferentes. Além disso, a existência de atores que oferecem acesso a modelos em escala através de redes de contas coloca desafios adicionais de cumprimento e responsabilidade nas cadeias de fornecimento digitais.

Nem tudo está perdido. Os fornecedores de modelos podem mitigar o risco através de detecção avançada, controlos de identidade e limites na granularidade das respostas que facilitem a cópia direta, e as organizações podem investir em auditorias e técnicas de watermarking ou de verificação de procedência do treinamento que ajudem a detectar quando um modelo foi treinado com material obtido ilegalmente. Para quem quiser aprofundar as recomendações práticas e medidas de segurança em ambientes de machine learning, iniciativas como as guias de segurança do OWASP oferecem orientações úteis: OWASP — Machine Learning Security Cheat Sheet.

Em suma, a denúncia de Anthropic expõe um problema crescente: quando a extração de capacidades se industrializa, não só se põe em risco a competitividade das empresas que investem em pesquisa avançada, mas também se amplificam os vetores pelos quais a IA pode ser empregada para fins nocivos. A comunidade tecnológica, os reguladores e os próprios fornecedores devem avançar em conjunto para fechar rachaduras técnicas e legais, mantendo simultaneamente canais seguros para a investigação e a inovação responsável. Enquanto isso, espera-se que os episódios e este promovam melhores práticas de segurança e maior transparência num sector que avança em grande velocidade.

Cobertura

Relacionadas

Mas notícias do mesmo assunto.