Distilación ilícita a gran escala clonando Claude y sus riesgos de seguridad

Anthropic ha anunciado que detectó campañas masivas diseñadas para extraer las capacidades de su modelo de lenguaje Claude y reproducirlas en modelos rivales. Según la compañía, tres empresas —identificadas como DeepSeek, Moonshot AI y MiniMax— orquestaron un conjunto de accesos fraudulentos que generaron millones de intercambios con Claude a través de cuentas falsas y servicios proxy comerciales. Este tipo de operaciones, conocidas en la jerga como ataques de “distillation” o destilación, no solo ponen en jaque la propiedad intelectual de los desarrolladores de modelos de vanguardia, sino que también plantean serios riesgos de seguridad pública cuando esas capacidades se reproducen sin las salvaguardas originales.

La técnica en cuestión consiste en usar las respuestas de un modelo potente como datos de entrenamiento para uno más pequeño o más barato. En contextos legítimos, esa práctica puede servir para crear versiones eficientes de un modelo para dispositivos con menos recursos. Sin embargo, cuando un competidor extrae deliberadamente respuestas de manera masiva y encubierta, se trata de un atajo que esquiva inversiones y controles éticos, y que puede producir réplicas sin las limitaciones diseñadas por la compañía que creó el modelo original. Anthropic explica en su propio comunicado cómo detectó estos patrones atípicos de uso y enlaza detalles técnicos sobre cómo está afrontando la amenaza en su blog oficial: Detecting and preventing distillation attacks.

Distilación ilícita a gran escala clonando Claude y sus riesgos de seguridad — Imagen generada con IA.

Según la investigación de Anthropic, los tres laboratorios atacantes tenían objetivos diferenciados: algunos se centraron en capacidades de razonamiento complejas y en respuestas que permiten eludir censuras, otros en la habilidad del modelo para utilizar herramientas o generar código, y otros en capacidades de visión por computador y agentes que interactúan con software. Lo que llama la atención es la escala: millones de intercambios orquestados mediante redes de cuentas fraudulentas y proxies que distribuyen el tráfico para dificultar la detección. Anthropic incluso señala que en un caso una sola red proxy operó más de 20.000 cuentas falsas a la vez, mezclando tráfico malicioso con solicitudes legítimas para camuflar el abuso.

Detrás de ese disfraz técnico hay implicaciones que van más allá de la competencia comercial. Los modelos copiados sin controles pueden perder las barreras diseñadas para evitar usos dañinos, lo que facilita que actores estatales o grupos con fines maliciosos adapten y “armen” capacidades de IA para desinformación, vigilancia masiva o ciberoperaciones ofensivas. Anthropic lo subraya porque, en su opinión, los modelos resultantes de una distilación ilícita son más propensos a carencias en seguridad y mitigaciones, y por tanto representan un vector de riesgo para la seguridad nacional y la estabilidad pública. Para ampliar el contexto sobre la relación entre tecnologías de IA y amenazas a la seguridad, existen análisis de organismos como la Agencia de la Unión Europea para la Ciberseguridad (ENISA) que exploran el panorama de amenazas asociado a la IA: ENISA — Artificial Intelligence Threat Landscape.

La mecánica operativa de las campañas reveladas es instructiva: el acceso a Claude se obtuvo mediante cuentas creadas con fines fraudulentos y a través de intermediarios que revenden acceso a modelos a gran escala. Estas plataformas proxy suelen usar arquitecturas tipo “hydra cluster” que permiten reemplazar cuentas bloqueadas por otras nuevas sin interrumpir la extracción. Para identificar y atribuir las campañas, Anthropic combinó señales como metadatos de las peticiones, correlación de direcciones IP y otros indicadores de infraestructura, lo que le permitió vincular patrones concretos a cada laboratorio implicado y determinar que las solicitudes no respondían a un uso normal sino a un esfuerzo deliberado de extracción.

Frente a esta amenaza, la respuesta técnica de Anthropic ha incluido el desarrollo de clasificadores y sistemas de huella de comportamiento que detectan patrones característicos de estos ataques en el tráfico de la API, así como medidas de verificación reforzada para cuentas académicas y programas de investigación y startups. También han implementado salvaguardas para reducir la utilidad que pueden tener las respuestas del modelo para entrenar copias ilícitas. Anthropic ofrece más información sobre las medidas y las restricciones comerciales que aplica en otra nota pública: Updating restrictions of sales to unsupported regions.

Este caso no es aislado. En fechas recientes, otros proveedores de IA han reportado intentos semejantes de extracción y distilación sobre sus modelos, lo que evidencia un problema sistémico en el ecosistema de APIs y servicios de IA. La literatura académica y técnica sobre extracción de modelos recoge técnicas similares desde hace años y documenta por qué los APIs pueden ser vulnerables cuando las predicciones se convierten en materia prima para entrenar réplicas. Un trabajo representativo en este campo es el estudio que analiza el robo de modelos a través de APIs públicas: Stealing Machine Learning Models via Prediction APIs (arXiv).

Las preguntas que plantea este episodio son tanto tecnológicas como regulatorias. Desde el punto de vista técnico, hay un equilibrio difícil entre ofrecer acceso abierto y preventivo para investigación legítima, y cerrar los vectores que permiten el abuso industrializado. Desde el punto de vista normativo, surgen dudas sobre cómo perseguir jurisdiccionalmente estas prácticas cuando las empresas y las infraestructuras que permiten el abuso operan en regiones con marcos legales y de seguridad diferentes. Además, la existencia de actores que ofrecen acceso a modelos a escala mediante redes de cuentas plantea retos adicionales de cumplimiento y responsabilidad en las cadenas de suministro digitales.

No todo está perdido. Los proveedores de modelos pueden mitigar el riesgo mediante detección avanzada, controles de identidad y límites en la granularidad de las respuestas que faciliten la copia directa, y las organizaciones pueden invertir en auditorías y en técnicas de watermarking o de verificación de procedencia del entrenamiento que ayuden a detectar cuándo un modelo ha sido entrenado con material obtenido ilícitamente. Para quien quiera profundizar en recomendaciones prácticas y medidas de seguridad en entornos de machine learning, iniciativas como las guías de seguridad de OWASP ofrecen orientaciones útiles: OWASP — Machine Learning Security Cheat Sheet.

En definitiva, la denuncia de Anthropic expone un problema creciente: cuando la extracción de capacidades se industrializa, no solo se pone en riesgo la competitividad de las empresas que invierten en investigación avanzada, sino que también se amplifican los vectores por los que la IA puede ser empleada con fines nocivos. La comunidad tecnológica, los reguladores y los propios proveedores deben avanzar en conjunto para cerrar grietas técnicas y legales, manteniendo al mismo tiempo canales seguros para la investigación y la innovación responsable. Mientras tanto, cabe esperar que los episodios como este impulsen mejores prácticas de seguridad y mayor transparencia en un sector que avanza a gran velocidad.

Cobertura

Relacionadas

Mas noticias del mismo tema.

21 de mayo de 2026 4 min de lectura 9

Alerta de seguridad Drupal vulnerabilidad crítica de inyección SQL en PostgreSQL obliga a actualizar de inmediato

Drupal ha publicado actualizaciones de seguridad para una vulnerabilidad calificada como "altamente crítica" que afecta a Drupal Core y permite a un atacante lograr inyección SQ...

20 de mayo de 2026 5 min de lectura 16

Joven ucraniano de 18 años lidera una red de infostealers que vulneró 28.000 cuentas y dejó pérdidas de 250.000 dólares

Las autoridades ucranianas, en coordinación con agentes de EE. UU., han puesto el foco sobre una operación de infostealer que, según la Policía Cibernética de Ucrania, habría si...

20 de mayo de 2026 4 min de lectura 20

RAMPART y Clarity redefinen la seguridad de los agentes de IA con pruebas reproducibles y gobernanza desde el inicio

Microsoft ha presentado dos herramientas de código abierto, RAMPART y Clarity, orientadas a cambiar la manera en que se prueba la seguridad de los agentes de IA: una que automat...

20 de mayo de 2026 4 min de lectura 22

La firma digital está en jaque: Microsoft desmantela un servicio que convirtió malware en software aparentemente legítimo

Microsoft anunció la desarticulación de una operación de “malware‑signing‑as‑a‑service” que explotaba su sistema de firma de artefactos para convertir código malicioso en binari...

Un único token de workflow de GitHub abrió la puerta a la cadena de suministro de software

20 de mayo de 2026 4 min de lectura 12

Explora RadarBytes

Distilación ilícita a gran escala clonando Claude y sus riesgos de seguridad

Desactiva tu bloqueador de anuncios

Distilación ilícita a gran escala clonando Claude y sus riesgos de seguridad

Relacionadas

Alerta de seguridad Drupal vulnerabilidad crítica de inyección SQL en PostgreSQL obliga a actualizar de inmediato

Joven ucraniano de 18 años lidera una red de infostealers que vulneró 28.000 cuentas y dejó pérdidas de 250.000 dólares

RAMPART y Clarity redefinen la seguridad de los agentes de IA con pruebas reproducibles y gobernanza desde el inicio

La firma digital está en jaque: Microsoft desmantela un servicio que convirtió malware en software aparentemente legítimo

Un único token de workflow de GitHub abrió la puerta a la cadena de suministro de software

Webworm 2025: el malware que se esconde en Discord y Microsoft Graph para evadir la detección

La identidad ya no basta: la verificación continua del dispositivo para una seguridad en tiempo real

Gestiona tus cookies