Hace pocos días, una investigación pública puso en evidencia una forma particularmente alarmante de ataque que combina vectores tradicionales de seguridad con la nueva realidad de asistentes de código impulsados por inteligencia artificial. La firma Orca Security bautizó la debilidad como RoguePilot: un error en la interacción entre GitHub Codespaces y GitHub Copilot que, en determinadas condiciones, permitía a un atacante introducir instrucciones maliciosas dentro de una incidencia (issue) y lograr que el asistente de IA las ejecutara sin que el desarrollador se percatara.
El mecanismo es, en apariencia, sencillo y sin embargo peligroso porque aprovecha flujos de trabajo de confianza. Cuando un usuario abre un Codespace desde el contexto de una issue, Copilot recibe automáticamente el contenido de esa issue como parte de su prompt. Un actor malicioso puede esconder comandos dentro del texto (por ejemplo, usando un comentario HTML como ) de modo que el modelo los procese como instrucciones legítimas. Con la cadena de acciones adecuada —por ejemplo, forzando la revisión o el checkout de un pull request especialmente preparado con enlaces simbólicos y un esquema JSON remoto— el asistente puede ser inducido a leer archivos internos y filtrar secretos sensibles, como el token con privilegios GITHUB_TOKEN, hacia servidores controlados por el atacante. Orca explica con detalle la prueba de concepto en su informe: RoguePilot — Orca Security.

Microsoft y GitHub recibieron la divulgación responsable y corrigieron el problema, pero la relevancia del caso va más allá de un parche puntual. Se trata de una nueva clase de amenaza que algunos expertos ya describen como inyección de prompts pasiva o indirecta: no se ataca directamente al modelo, sino que se inserta contenido malicioso en artefactos que legítimamente acaban siendo consumidos por el LLM en flujos automatizados. En otras palabras, los datos de los desarrolladores se convierten en una cadena de suministro atacable para la IA.
Este episodio llega en un momento en el que la investigación sobre ataques a modelos de lenguaje y agentes autónomos está acelerándose. Microsoft publicó recientemente un estudio que muestra cómo técnicas de afinamiento post-despliegue basadas en aprendizaje por refuerzo, como la denominada Group Relative Policy Optimization (GRPO), pueden eliminar características de seguridad del modelo si se aplican de forma adversa —un proceso que los investigadores denominaron GRP-Obliteration—. El trabajo demuestra que incluso ejemplos de prompt aparentemente inocuos pueden desalinear modelos y volverlos más permisivos ante contenidos dañinos; el informe técnico está disponible en la página de Microsoft: Prompt attack breaks LLM safety — Microsoft Security y el estudio de GRPO puede consultarse en arXiv.
Al mismo tiempo, otros trabajos han revelado canales laterales y vectores que amplían aún más la superficie de ataque: desde técnicas que permiten inferir el tema de una conversación o incluso “huellificar” consultas de usuarios con alta precisión, hasta optimizaciones internas de los modelos —como la decodificación especulativa— que, sin proponérselo, abren posibilidades de explotación. Investigaciones publicadas en arXiv analizan estas vías y documentan diversos mecanismos que permiten filtrar información o deducir patrones de uso: arXiv 2410.17175, arXiv 2411.01076.
La amenaza no se limita a prompts de texto. HiddenLayer describió un ataque llamado Agentic ShadowLogic que aprovecha backdoors a nivel del grafo computacional para interceptar llamadas de herramientas (tool calls) de agentes: el atacante puede redirigir en tiempo real solicitudes a través de su propia infraestructura, registrar tráfico y luego reenviar la petición al destino real sin que el usuario note ninguna anomalía. El riesgo es alto porque, desde la superficie, todo parece funcionar correctamente mientras en las sombras se está recolectando información crítica. Más detalles en la publicación de HiddenLayer: Agentic ShadowLogic — HiddenLayer.
En el terreno de la generación de imágenes, también se han hallado técnicas de evasión de filtros de seguridad. Neural Trust mostró una táctica denominada Semantic Chaining donde, a través de una serie de modificaciones sucesivas y aparentemente inocuas a una imagen, un atacante consigue llevar al modelo a producir un resultado prohibido que no habría pasado una comprobación directa. Esta estrategia explota la falta de “profundidad de razonamiento” en algunos modelos al tratar modificaciones sobre un contenido existente en lugar de crear algo desde cero; pueden leer su explicación completa aquí: Semantic Chaining — Neural Trust.
Estos descubrimientos han llevado a investigadores a acuñar nuevos conceptos para describir amenazas emergentes. Entre ellos destaca el término promptware, propuesto por un grupo de académicos que analizan cómo prompts diseñados con intención maliciosa pueden orquestar fases típicas de una intrusión (acceso inicial, escalada de privilegios, movimiento lateral, exfiltración, etc.) aprovechando permisos y funcionalidades de aplicaciones que integran LLMs. El documento técnico que introduce la idea está disponible en arXiv, y Bruce Schneier comentó sus implicaciones desde una perspectiva de seguridad práctica: Promptware — arXiv y La columna de Schneier.
¿Qué significa todo esto para equipos de desarrollo y responsables de seguridad? En primer lugar, que los flujos automatizados que integran contenido externo con agentes de IA deben ser revisados y, cuando sea posible, aislados. No es seguro asumir que el texto que llega desde una issue, un PR o una plantilla es inofensivo; hay que tratar esas entradas como datos no confiables y aplicar sanitización y políticas de minimalidad de privilegios. A nivel operativo resulta prudente rotar tokens y credenciales con frecuencia, limitar el alcance de tokens para que no concedan más permisos de los estrictamente necesarios, y desactivar la ejecución automática de sugerencias o acciones en entornos que puedan arrancar desde contenidos no verificados.

También corresponde a los proveedores de plataformas y a los desarrolladores de modelos reforzar las defensas: mejorar la detección de inyecciones de prompt, aplicar controles de contexto que distingan entre instrucciones explícitas del usuario y datos incrustados en artefactos, y diseñar mecanismos de validación que eviten que un agente actúe sobre contenido oculto o encubierto. Además, la creación de señales de trazabilidad y auditoría —registro detallado de cuándo y por qué un agente tomó una acción— ayudará a detectar y mitigar incidentes de manera más rápida.
RoguePilot es un recordatorio contundente de que la adopción de IA en flujos de trabajo reales trae grandes beneficios, pero también aumenta la complejidad de la superficie de ataque. La seguridad ya no es sólo evitar exploits en servidores o bibliotecas: incluye controlar qué entiende y ejecuta una IA cuando se le alimenta con datos del mundo real. La colaboración entre investigadores, proveedores y responsables de producto, así como la divulgación responsable y la rápida aplicación de mitigaciones, serán claves para que estos sistemas sigan aportando valor sin convertirse en un vector de riesgo inaceptable.
Si quieres profundizar en las fuentes originales, puedes consultar el análisis técnico de Orca sobre RoguePilot (Orca Security), las investigaciones de Microsoft sobre ataques a la seguridad de LLMs (Microsoft Security Blog), los documentos académicos en arXiv, el informe de HiddenLayer sobre Agentic ShadowLogic (HiddenLayer) y la pieza de Neural Trust sobre Semantic Chaining (Neural Trust), entre otras lecturas críticas para entender mejor la evolución de estas amenazas.
Relacionadas
Mas noticias del mismo tema.

Joven ucraniano de 18 años lidera una red de infostealers que vulneró 28.000 cuentas y dejó pérdidas de 250.000 dólares
Las autoridades ucranianas, en coordinación con agentes de EE. UU., han puesto el foco sobre una operación de infostealer que, según la Policía Cibernética de Ucrania, habría si...

RAMPART y Clarity redefinen la seguridad de los agentes de IA con pruebas reproducibles y gobernanza desde el inicio
Microsoft ha presentado dos herramientas de código abierto, RAMPART y Clarity, orientadas a cambiar la manera en que se prueba la seguridad de los agentes de IA: una que automat...

La firma digital está en jaque: Microsoft desmantela un servicio que convirtió malware en software aparentemente legítimo
Microsoft anunció la desarticulación de una operación de “malware‑signing‑as‑a‑service” que explotaba su sistema de firma de artefactos para convertir código malicioso en binari...

Un único token de workflow de GitHub abrió la puerta a la cadena de suministro de software
Un único token de workflow de GitHub falló en la rotación y abrió la puerta. Esa es la conclusión central del incidente en Grafana Labs tras la reciente oleada de paquetes malic...

Webworm 2025: el malware que se esconde en Discord y Microsoft Graph para evadir la detección
Las últimas observaciones de investigadores en ciberseguridad señalan un cambio de tácticas preocupante de un actor vinculado a China conocido como Webworm: en 2025 ha incorpora...

La identidad ya no basta: la verificación continua del dispositivo para una seguridad en tiempo real
La identidad sigue siendo la columna vertebral de muchas arquitecturas de seguridad, pero hoy esa columna está agrietándose bajo nuevas presiones: phishing avanzado, kits que pr...

La materia oscura de la identidad está cambiando las reglas de la seguridad corporativa
El informe Identity Gap: Snapshot 2026 publicado por Orchid Security pone números a una tendencia peligrosa: la "materia oscura" de identidad —cuentas y credenciales que no se v...