Investigadores en ciberseguridad han desvelado una vulnerabilidad que aprovecha la naturaleza conversacional de los modelos de lenguaje para convertir una funcionalidad aparentemente inocua en un canal de fuga de datos. Según el informe técnico compartido por Miggo Security, el fallo permitía a un actor malicioso esconder un fragmento de instrucción en la descripción de una invitación de Google Calendar de modo que el asistente de IA —en este caso Google Gemini— lo interpretara y ejecutara acciones que exfiltraban información sensible sin que la víctima interactuara conscientemente con la trampa. Miggo describe cómo se tejía la cadena de ataque.
En términos prácticos, el atacante creaba un evento de calendario legítimo y colocaba en su campo de descripción una instrucción redactada en lenguaje natural diseñada para ser entendida por el modelo. Cuando el usuario le preguntaba a Gemini algo banal sobre su agenda —por ejemplo, si tenía reuniones un martes— el modelo analizaba todas las entradas relevantes, encontraba la invitación maliciosa y seguía la instrucción oculta: generar un resumen de reuniones y crear un nuevo evento que contenía ese resumen en su descripción. De cara al usuario la respuesta podía parecer inocua, mientras que, entre bambalinas, se estaba produciendo una filtración de datos de reuniones privadas.

El punto crítico es cómo las políticas de visibilidad y configuración de calendarios en empresas pueden convertir esta técnica en una herramienta de espionaje. En muchas organizaciones, los eventos creados dentro de un dominio o compartidos por direcciones de calendario pueden ser visibles para terceros o para cuentas con permisos mínimos, lo que permitía al atacante acceder a la nueva entrada que contenía la información exfiltrada sin que la víctima ordenara expresamente su divulgación. Tras la comunicación responsable del hallazgo, Google aplicó correcciones, pero el incidente deja una lección clara: las interfaces conversacionales amplían la superficie de ataque más allá del código tradicional.
Este caso no es aislado. En las últimas semanas han surgido múltiples investigaciones que muestran variantes del mismo problema: agentes y asistentes que, si pueden escribir en registros, bases de datos, campos de formularios o crear recursos externos, pueden convertir esos objetos en canales de fuga. Herramientas de auditoría y evaluación continua de modelos, como Phare de Giskard, recomiendan medir no solo precisión y sesgos, sino también resistencia a manipulaciones de entrada y comportamiento en tiempo de ejecución.
Además, la comunidad ha documentado ataques conceptualmente afines. Varonis, por ejemplo, habló sobre un enfoque bautizado como "Reprompt" que explota la forma en que los asistentes pueden ser provocados para revelar datos sensibles con un solo clic, mientras que otros equipos han mostrado vectores que permiten escalar privilegios en plataformas de IA gestionadas por la nube. XM Cyber presentó un informe sobre cómo identidades de servicio aparentemente inofensivas pueden convertirse en “dobles agentes” que facilitan la escalada de privilegios en entornos de Google Cloud Vertex AI, lo que subraya la necesidad de auditar cuentas de servicio y permisos asignados. Su análisis detalla cómo identidades con permisos limitados pueden llegar a operar con efectos de alto impacto.
También se han relevado fallos en asistentes personales y plataformas de agentes que permiten acceder a consolas administrativas o metadatos de nube. El aviso de vulnerabilidades sobre The Librarian detalla varios CVE que dan acceso a infraestructura interna y datos sensibles, un recordatorio de que los asistentes personalizados pueden convertirse en puertas traseras si no se aíslan correctamente. El registro de incidentes y el análisis de Mindgard contienen información técnica útil para equipos defensores.
Investigaciones independientes han mostrado además cómo la capacidad de un modelo para escribir en un campo puede ser explotada para recuperar su propio "prompt del sistema" o para codificar información en formatos como Base64 y luego exfiltrarla mediante salidas que, a primera vista, son benignas. Praetorian, por ejemplo, demostró técnicas para extraer prompts del sistema cuando el asistente puede escribir en campos estructurados, y advirtió que cualquier punto de escritura es un posible canal de fuga. Su estudio pone énfasis en este vector.
El ecosistema de plugins y marketplaces para asistentes también ha mostrado riesgos: un plugin malicioso publicado en un directorio puede, mediante hooks o integraciones, eludir mecanismos de revisión humana y canalizar información fuera del entorno previsto. Existen ejemplos públicos que demuestran cómo estas extensiones pueden ser utilizadas para sortear protecciones y robar archivos del usuario. Para entender el mecanismo y sus mitigaciones, conviene revisar análisis como los de PromptArmor y la documentación de Anthropic sobre cómo funcionan los hooks en Claude Code: la documentación oficial.
Un caso especialmente técnico mostró cómo agentes que integran entornos de desarrollo pueden ser cooptados: Pillar Security describió una vulnerabilidad en Cursor que permitía ejecución remota al manipular comandos internos del shell que los agentes consideraban confiables, transformando acciones permitidas por el desarrollador en vectores de ejecución arbitraria. El CVE y el análisis de la cadena de ataque ilustran la fragilidad de confiar implícitamente en comportamientos del entorno. El aviso en GitHub y el informe de Pillar Security aportan los detalles técnicos.

Complementando estos hallazgos, un estudio comparativo sobre agentes de codificación mostró que, si bien estos asistentes evitan ataques clásicos como inyecciones SQL o XSS con relativa frecuencia, tienden a fallar en problemas de lógica de negocio, SSRF y controles de autorización, y muchas implementaciones carecen de protecciones básicas como CSRF o límites de autenticación. Esa evaluación subraya que la supervisión humana sigue siendo crítica y que, como advierte Ori David de Tenzai, los agentes no pueden sustituir el juicio humano en decisiones complejas de seguridad sin directrices explícitas. Su análisis es una lectura recomendable para equipos que despliegan asistentes de desarrollo.
¿Qué deben hacer entonces las organizaciones? No hay pastilla mágica: hace falta una combinación de diseño seguro, restricciones estrictas de permisos, auditoría continuada de identidades y acciones de los agentes, pruebas adversariales que incluyan inyecciones semánticas y, sobre todo, aplicar el principio de menor privilegio a cualquier capacidad que permita escribir o crear recursos. La seguridad de los sistemas de IA ya no es solo cuestión de parches en el código; es también gobernanza del lenguaje y control del comportamiento en tiempo de ejecución. Herramientas de evaluación de modelos, revisiones de configuración en la nube y programas de divulgación responsable son piezas clave para reducir el riesgo.
En un momento en que las características “nativas de IA” se multiplican en aplicaciones empresariales, conviene recordar que cada interfaz conversacional o automatización añade un nuevo vector que merece su propia capa de defensa. La vulnerabilidad en Gemini y los incidentes relacionados son una llamada de atención: la seguridad debe evolucionar al ritmo de la innovación, y eso pasa por combinar ingeniería, vigilancia y formación para que las IAs hagan lo que deben —y solo eso— en entornos productivos.
Relacionadas
Mas noticias del mismo tema.

Joven ucraniano de 18 años lidera una red de infostealers que vulneró 28.000 cuentas y dejó pérdidas de 250.000 dólares
Las autoridades ucranianas, en coordinación con agentes de EE. UU., han puesto el foco sobre una operación de infostealer que, según la Policía Cibernética de Ucrania, habría si...

RAMPART y Clarity redefinen la seguridad de los agentes de IA con pruebas reproducibles y gobernanza desde el inicio
Microsoft ha presentado dos herramientas de código abierto, RAMPART y Clarity, orientadas a cambiar la manera en que se prueba la seguridad de los agentes de IA: una que automat...

La firma digital está en jaque: Microsoft desmantela un servicio que convirtió malware en software aparentemente legítimo
Microsoft anunció la desarticulación de una operación de “malware‑signing‑as‑a‑service” que explotaba su sistema de firma de artefactos para convertir código malicioso en binari...

Un único token de workflow de GitHub abrió la puerta a la cadena de suministro de software
Un único token de workflow de GitHub falló en la rotación y abrió la puerta. Esa es la conclusión central del incidente en Grafana Labs tras la reciente oleada de paquetes malic...

Webworm 2025: el malware que se esconde en Discord y Microsoft Graph para evadir la detección
Las últimas observaciones de investigadores en ciberseguridad señalan un cambio de tácticas preocupante de un actor vinculado a China conocido como Webworm: en 2025 ha incorpora...

La identidad ya no basta: la verificación continua del dispositivo para una seguridad en tiempo real
La identidad sigue siendo la columna vertebral de muchas arquitecturas de seguridad, pero hoy esa columna está agrietándose bajo nuevas presiones: phishing avanzado, kits que pr...

La materia oscura de la identidad está cambiando las reglas de la seguridad corporativa
El informe Identity Gap: Snapshot 2026 publicado por Orchid Security pone números a una tendencia peligrosa: la "materia oscura" de identidad —cuentas y credenciales que no se v...