La IA Generativa se convierte en arma: cómo Gemini impulsa ataques, suplantaciones y extracción de modelos

Publicada 6 min de lectura 121 lecturas

La llegada de modelos generativos avanzados transformó la forma en que investigamos, escribimos y automatizamos tareas. Pero como en casi toda revolución tecnológica, también ha abierto nuevas vías para que actores maliciosos aceleren y perfeccionen campañas contra empresas y personas. Recientemente, Google reveló que un grupo vinculado a Corea del Norte estuvo empleando su modelo Gemini para tareas de reconocimiento y planificación de ataques, un ejemplo claro de cómo las herramientas de inteligencia artificial pueden ser reutilizadas con fines hostiles.

Según el equipo de inteligencia de amenazas de Google, el actor conocido como UNC2970 recurrió a Gemini para sintetizar inteligencia de fuentes abiertas (OSINT) y construir perfiles detallados de objetivos de alto valor. Ese trabajo incluyó búsquedas sobre compañías de ciberseguridad y defensa, mapeo de puestos técnicos específicos e incluso recopilación de información salarial, todo con el objetivo de diseñar comunicaciones de suplantación más convincentes y detectar «puntos blandos» para una posible intrusión. La propia descripción del informe subraya cómo, en manos de un operador con motivación ofensiva, la línea entre la investigación profesional legítima y el reconocimiento malicioso se vuelve muy tenue. Ver el informe de Google aquí: Google Cloud: Distillation, experimentation and the adversarial use of AI.

La IA Generativa se convierte en arma: cómo Gemini impulsa ataques, suplantaciones y extracción de modelos
Imagen generada con IA.

UNC2970 no es un recién llegado: se le relaciona con clústeres históricamente asociados a campañas como Operation Dream Job, en las que se han usado ofertas de empleo falsas para engañar a personal del sector aeroespacial, de defensa y energético y así entregar malware. Esa técnica de «reclutador ficticio» se vuelve mucho más eficaz cuando un modelo generativo ayuda a confeccionar mensajes personalizados y técnicas de ingeniería social convincentes. Google también ha documentado este patrón en un contexto más amplio de amenazas contra la industria de defensa: más detalles aquí.

Y no son solo los grupos norcoreanos los que han integrado Gemini en sus flujos de trabajo. Diversos actores vinculados a distintos países han empezado a utilizar modelos generativos para acelerar fases del ciclo de ataque: desde la búsqueda y recolección de credenciales hasta la creación de dossiers personales, la automatización de pruebas de vulnerabilidades o la ayuda para depurar código de explotación. Algunos equipos han pedido al modelo que resuma documentación open source, genere planes de prueba dirigidos o incluso ayude a desarrollar herramientas de raspado web y sistemas de gestión de tarjetas SIM. El resultado es que tareas que antes requerían equipos humanos dedicados pueden conseguirse ahora con mayor rapidez y a escala.

El abuso de modelos no se limita a la inteligencia previa al ataque. Google identificó familias de malware que aprovechan las APIs de Gemini para generar código a la carta. Un ejemplo especialmente revelador es el downloader bautizado como HONESTCUE, que envía solicitudes a la API y recibe como respuesta código en C#. Ese código se compila y ejecuta directamente en memoria utilizando una librería legítima de .NET, CSharpCodeProvider, con lo que se evitan artefactos en disco y se dificulta la detección tradicional. Otro caso detectado fue un kit de phishing automatizado con generación de contenido falso para suplantar una plataforma de intercambio de criptomonedas, relacionado con operaciones de motivación financiera.

También han surgido campañas que explotan funciones de compartición pública de servicios de IA para hospedar instrucciones falsas y atraer víctimas hacia malware que roba información; investigadores de la comunidad de seguridad han señalado varias oleadas de este tipo de abusos. Estos incidentes ilustran cómo la capacidad de un modelo para producir textos plausibles puede ser instrumentalizada tanto para construir engaños como para crear componentes técnicos de una cadena de ataque.

Otro riesgo relevante identificado por Google es el de la extracción de modelos. En este tipo de ataque, un adversario consulta de forma masiva una API de un modelo propietario, registra las respuestas y entrena un sistema sustituto que replica, en gran medida, el comportamiento del original. Google bloqueó intentos que consistieron en más de 100.000 consultas diseñadas para reproducir la capacidad del modelo en múltiples tareas y en idiomas distintos del inglés. Investigaciones independientes han demostrado que, incluso con un número relativamente pequeño de consultas, es posible entrenar réplicas con una fidelidad sorprendente: un experimento público consiguió una réplica que alcanzó un 80,1% de precisión tras enviar 1.000 preguntas y entrenar durante 20 épocas. Como advierte la investigadora Farida Shafik, «el comportamiento es el modelo: cada par consulta-respuesta es un ejemplo de entrenamiento para una réplica». Para más contexto técnico sobre ese ataque de extracción, puede consultarse el análisis de Praetorian: Praetorian — Stealing AI models through the API, y una explicación sobre conceptos de entrenamiento como épocas aquí: Machine Learning Mastery — Batch vs Epoch.

¿Qué pueden hacer las organizaciones ante este panorama? En primer lugar, reconocer que las defensas tradicionales no son suficientes por sí solas: proteger la confidencialidad de pesos del modelo no evita que su comportamiento sea replicado si las respuestas se exponen a través de una API. Al mismo tiempo, hay medidas prácticas que reducen la superficie de ataque: segregar y proteger claves de API, imponer límites de tasa y anomalías en el tráfico, aplicar controles de acceso y autenticación estricta, monitorizar patrones de consulta atípicos y usar detección basada en comportamiento para señales de extracción o abuso. También es imprescindible mejorar la formación de personal sobre ingeniería social y procesos de contratación, porque los engaños dirigidos y convincentes siguen siendo una puerta de entrada habitual.

La IA Generativa se convierte en arma: cómo Gemini impulsa ataques, suplantaciones y extracción de modelos
Imagen generada con IA.

Además de mitigaciones técnicas puntuales, la situación exige colaboración entre proveedores de modelos, empresas usuarias y la comunidad de seguridad para compartir indicadores de abuso, mejorar la transparencia sobre incidentes y avanzar en contramedidas a nivel de arquitectura de modelos —como técnicas para enmascarar o limitar información sensible en las respuestas y mecanismos para detectar intentos de extracción en tiempo real—. Google y otros proveedores ya están publicando investigaciones y guías sobre estos desafíos; el intercambio público de hallazgos es clave para reducir el impacto.

En definitiva, la capacidad de los modelos generativos para ser herramientas de productividad resulta innegable, pero su adopción generalizada también amplifica riesgos nuevos y conocidos. La innovación y la seguridad deben avanzar de la mano: sin prácticas de defensa adaptadas a este nuevo contexto, las mismas capacidades que aceleran el trabajo legítimo pueden convertir a las organizaciones en objetivos mucho más fáciles de explotar.

Fuentes y lecturas recomendadas: el análisis técnico de Google sobre usos adversarios de Gemini y recomendaciones de mitigación (Google Cloud), el estudio práctico sobre extracción de modelos de Praetorian (Praetorian), documentación de Microsoft sobre compilación dinámica en .NET (Microsoft Docs) y el blog de seguridad de Huntress para ejemplos de campañas basadas en instrucciones públicas de IA (Huntress).

Cobertura

Relacionadas

Mas noticias del mismo tema.