OpenClaw y el lado oscuro de los IA autónomos: inyecciones de prompts, exfiltración y fallas de seguridad

Publicada 5 min de lectura 119 lecturas

La proliferación de agentes de IA autónomos de código abierto ha encendido las alarmas de los equipos de respuesta a incidentes. Un ejemplo reciente es OpenClaw —antes conocido como Clawdbot o Moltbot—, una plataforma que permite a los modelos de lenguaje tomar decisiones y ejecutar acciones en un sistema local. Las autoridades chinas responsables de la ciberseguridad pública han emitido una advertencia pública sobre riesgos asociados a su uso, subrayando que las configuraciones por defecto poco robustas y el acceso privilegiado que suelen necesitar estos agentes pueden convertirlos en una puerta de entrada para los atacantes. Ver el comunicado oficial de CNCERT aquí: CNCERT (WeChat).

Para entender por qué preocupa OpenClaw hay que pensar en su diseño: para actuar de forma autónoma el agente debe poder navegar, leer páginas o ejecutar comandos. Ese permiso para “moverse” por el sistema es precisamente lo que facilita que una mala configuración o una extensión maliciosa provoque una brecha. Entre las técnicas que están explotando los atacantes destaca la conocida como inyección de prompts, y en particular una variante más sutil llamada inyección de prompts indirecta o cross-domain prompt injection, donde el adversario no ataca el modelo directamente sino que manipula funciones legítimas como la lectura de páginas web o la generación de resúmenes. Un análisis técnico sobre esta modalidad puede consultarse en Kaspersky Securelist: Securelist, y en investigaciones de Palo Alto Unit42: Unit42.

OpenClaw y el lado oscuro de los IA autónomos: inyecciones de prompts, exfiltración y fallas de seguridad
Imagen generada con IA.

Un caso ilustrativo lo publicó PromptArmor: si el agente puede generar URLs y las aplicaciones de mensajería muestran “previews” automáticas de enlace, el atacante puede forzar al agente a construir una dirección web con parámetros que contengan datos sensibles. Cuando el servicio de mensajería solicita la vista previa, el navegador o el servidor remoto del atacante recibe esa URL y con ella la información filtrada, sin que nadie tenga que hacer clic. Este mecanismo convierte una respuesta aparentemente inocua del agente en una vía de exfiltración de datos inmediata. La demostración y explicación técnica están disponibles en el informe de PromptArmor: PromptArmor.

Además de esas inyecciones indirectas, los investigadores y CNCERT han identificado otros vectores preocupantes. Por un lado, la capacidad del agente para interpretar instrucciones y ejecutar tareas puede llevar a errores destructivos, como la eliminación involuntaria e irreversible de información crítica si el modelo entiende mal una orden. Por otro lado, los repositorios de “skills” o extensiones que amplían las funciones del agente pueden convertirse en un punto de entrada: si un actor malicioso publica una skill que ejecuta comandos arbitrarios, la instalación de esa skill equivale a dar acceso remoto al sistema. Finalmente, las vulnerabilidades de software recientemente divulgadas en el propio OpenClaw pueden ser explotadas para comprometer instancias e extraer datos sensibles.

La popularidad del proyecto también ha sido aprovechada para la distribución de malware tradicional. Investigaciones de empresas de ciberseguridad han documentado campañas que emplean repositorios falsos en GitHub presentados como instaladores de OpenClaw; esos repositorios descargaban información sensible mediante troyanos como Atomic o Vidar Stealer, y desplegaban proxies y backdoors como GhostSocks. Huntress describe cómo repositorios maliciosos llegaron a posicionarse en los resultados de búsqueda AI y facilitaron infecciones tanto en entornos Windows como macOS: Huntress, y el análisis de GhostSocks está en Synthient.

Las implicaciones en sectores críticos pueden ser severas: desde la filtración de secretos comerciales hasta la interrupción total de servicios esenciales. Por ello, las autoridades chinas han llegado a limitar el uso de estas aplicaciones en ordenadores de organismos estatales y empresas públicas, prohibiendo su uso en oficinas e incluso extendiendo la restricción al entorno familiar de personal militar, según reportó Bloomberg: Bloomberg.

OpenClaw y el lado oscuro de los IA autónomos: inyecciones de prompts, exfiltración y fallas de seguridad
Imagen generada con IA.

¿Qué medidas prácticas pueden adoptar empresas y usuarios para reducir el riesgo? En primer lugar conviene aplicar el principio de menor privilegio: no ejecutar agentes con permisos administrativos si no es estrictamente necesario. Es recomendable también aislar el servicio en contenedores o máquinas virtuales, y no exponer el puerto de gestión por defecto a Internet. La gestión de secretos debe evitar el almacenamiento en texto plano y pasar por sistemas de vaulting; las skills solo deberían instalarse desde fuentes verificadas y conviene desactivar las actualizaciones automáticas de extensiones hasta validar su integridad. Complementariamente, controles de red que restrinjan salidas no autorizadas, reglas de firewall, inspección de tráfico saliente y medidas EDR aumentan la resiliencia frente a exfiltraciones y ejecución de código no deseado.

También hay espacio para soluciones a nivel de producto: limitar o deshabilitar la navegación web automática del agente, sanear y validar el contenido externo antes de que el modelo lo procese, y aplicar mecanismos de firma y revisión para las skills ayudarán a mitigar ataques de ingeniería social y de manipulación de instrucciones. OpenAI ha llamado la atención sobre la evolución de estas técnicas y la necesidad de que los agentes se diseñen para resistir manipulaciones, en su nota sobre cómo proteger agentes frente a inyecciones de prompt: OpenAI.

La recomendación general para cualquier organización que valore la seguridad es actuar con prudencia: la conveniencia de delegar tareas a un agente autónomo no debe eclipsar los controles básicos de ciberseguridad. Detrás de una interfaz sencilla pueden esconderse mecanismos complejos que, en manos equivocadas o mal configurados, provocan daños significativos. La comunidad, los mantenedores de proyectos y los equipos de seguridad deben colaborar para publicar guías de despliegue seguro, hardening por defecto y auditorías frecuentes, y así permitir que estas tecnologías progresen sin convertirse en un riesgo sistémico.

Cobertura

Relacionadas

Mas noticias del mismo tema.