En los últimos meses hemos visto cómo los navegadores que incorporan capacidades de inteligencia artificial han pasado de ser meros asistentes a convertirse en agentes que pueden realizar tareas por sí mismos: rellenar formularios, navegar por varias páginas y ejecutar secuencias de acciones en nombre del usuario. Esa autonomía promete productividad, pero también abre nuevas puertas a los atacantes. Un informe reciente de la firma Guardio describe un escenario inquietante en el que estos navegadores “agenticos” pueden ser engañados para caer en trampas de phishing y fraude sin que el usuario tenga que intervenir directamente. Puedes leer el informe completo de Guardio aquí: Guardio: Agentic Blabbering.
La mecánica del ataque aprovecha una característica que, paradójicamente, se percibe como ventaja: muchos agentes basados en modelos de lenguaje explican en voz alta —o en sus registros— por qué toman ciertas decisiones. Ese “razonamiento en voz alta” actúa como una ventana para un atacante: si puede observar qué elementos de una página hacen dudar al agente, o qué señales considera sospechosas, podrá iterar contra el modelo hasta diseñar una página maliciosa que el navegador acepte como legítima. Guardio demuestra que, alimentando esa información a técnicas de aprendizaje adversario —por ejemplo usando una red generativa adversaria (GAN)— es posible crear en minutos páginas de phishing que esquivan las defensas del agente.

Los investigadores acuñaron un término descriptivo para este fenómeno: Agentic Blabbering. La idea es simple y potente: cuando el agente “parlotea” sobre lo que ve y va a hacer, ese parloteo es una fuente de datos que un atacante puede utilizar para entrenar automáticamente su trampa. A partir de ahí, el atacante no necesita convencer al usuario humano; su objetivo es engañar al modelo que actúa por millones de usuarios iguales. Guardio incluso mostró cómo un agente comercial, en este caso el navegador Comet de Perplexity, pudo ser inducido a caer en una estafa de phishing en menos de cuatro minutos en condiciones de laboratorio.
Este comportamiento no surge de la nada: es la evolución de vectores de ataque previos que buscaban inyectar instrucciones en prompts o forzar a plataformas de generación a producir páginas o acciones maliciosas. Técnicas como la “vibe-scamming” o el uso de inyecciones ocultas en el contenido ya habían mostrado que los modelos que siguen instrucciones pueden ser manipulados desde la propia web. La diferencia ahora es que el adversario puede afinar su cebo de forma offline, iterando hasta que la trampa funcione de forma confiable contra un modelo concreto, y luego desplegarla con un alto grado de éxito contra cualquier usuario que utilice ese agente.
La investigación de Guardio no está sola: otras firmas y equipos han demostrado vectores complementarios. Trail of Bits realizó una auditoría en profundidad sobre Comet y detalló varias técnicas de inyección de prompts que permiten extraer información privada al combinar peticiones legítimas del usuario con instrucciones controladas por un atacante desde páginas web maliciosas. Su análisis técnico está disponible en el blog de Trail of Bits: Using threat modeling and prompt injection to audit Comet, y enlaza además a un trabajo académico que explora estas inyecciones: prompt injection techniques (arXiv).
Zenity Labs, por su parte, describió ataques de “clic cero” que permitían exfiltrar archivos locales o incluso intentar tomar control de cofres de contraseñas si el entorno del usuario tenía extensiones desbloqueadas, como 1Password. Sus posts, PerplexedComet: exfiltración de archivos y ataque a cofres de 1Password, explican cómo vectores aparentemente inocuos, como una invitación de calendario o una página para resumir, pueden transformarse en canales de fuga cuando el agente fusiona instrucciones legítimas y maliciosas.
Los ataques descritos se basan en una limitación fundamental de los sistemas: la incapacidad fiable de separar la intención legítima del usuario de instrucciones embebidas en contenido no confiable. Los investigadores llaman a esto “intent collision”, es decir, la colisión de intenciones, y ocurre cuando el agente combina una petición del usuario con comandos introducidos por un atacante en la página y los ejecuta sin poder distinguir de forma segura cuál proviene del usuario y cuál del atacante.
¿Qué implicaciones prácticas tiene todo esto para la gente que navega ahora mismo? Primero, el riesgo deja de ser únicamente personal: un atacante que perfeccione un exploit contra un modelo de navegador puede alcanzar a millones de personas que usan ese mismo agente. Segundo, las defensas tradicionales centradas en educar al usuario para que no pulse enlaces sospechosos pierden parte de su eficacia, porque la víctima directa del engaño es el agente y no la persona. Y tercero, la capacidad de los atacantes de ensayar y optimizar sus páginas fuera de línea convierte a estas amenazas en algo más parecido a una línea de producción: pruebas, mejora y despliegue masivo.
Eso no significa que estemos indefensos. Las mitigaciones propuestas incluyen mejoras técnicas como la detección automática de ataques adversariales, entrenamiento adversario de los modelos y nuevas salvaguardas a nivel de sistema que limiten qué acciones autónomas puede ejecutar un agente y cómo comunica su razonamiento. Empresas y auditores ya trabajan en esa dirección; de hecho, Perplexity y otros proveedores han corregido y endurecido componentes tras las divulgaciones de Trail of Bits y Zenity. Puedes revisar el aviso de seguridad de 1Password sobre integración con navegadores asistidos por IA en su comunicado.

Pero hay una enseñanza más amplia: la introducción de capacidades autónomas requiere repensar la superficie de ataque completa. Modelos que explican su proceso de decisión deben hacerlo de forma que no faciliten aprendizajes iterativos a atacantes. Además, los proveedores tendrán que combinar técnicas de ingeniería de prompts, políticas de aislamiento entre fuentes de datos y análisis de comportamiento en tiempo real para identificar cuando un agente está siendo manipulado. OpenAI, por ejemplo, ha señalado en el pasado que las vulnerabilidades de este tipo son difíciles de erradicar por completo y que la reducción del riesgo pasa por una mezcla de prevención automatizada y diseño seguro del sistema (nota: los lectores pueden consultar las publicaciones técnicas y avisos de seguridad de los fabricantes para detalles sobre enfoques y limitaciones).
Mientras el sector avanza en salvaguardas, ¿qué pueden hacer los usuarios hoy? Mantener extensiones sensibles como gestores de contraseñas cerradas o bloqueadas cuando no se usan, revisar con cuidado qué funciones automáticas se habilitan en los navegadores asistidos por IA y preferir herramientas que ofrezcan transparencia y controles granulares sobre acciones automáticas son medidas prudentes. A nivel organizacional conviene auditar flujos que deleguen decisiones en agentes y establecer barreras que eviten que un agente, por ejemplo, escriba credenciales o descargue ficheros sin una confirmación segura.
La promesa de los navegadores agenticos es grande: ahorrar tiempo, evitar clics repetitivos y hacer la web más accesible. Sin embargo, la investigación reciente nos recuerda que cada capa de autonomía introduce nuevos riesgos. La seguridad en la era de agentes autónomos no es solo un problema de usuarios desprevenidos: es un problema de diseño de sistemas que deben protegerse contra adversarios que aprenden del propio comportamiento de esos sistemas. Entender esa dinámica y exigir a proveedores auditorías, transparencia y mitigaciones efectivas será crucial para que la tecnología cumpla sus promesas sin convertirse en una herramienta amplificada por los estafadores.
Relacionadas
Mas noticias del mismo tema.

Joven ucraniano de 18 años lidera una red de infostealers que vulneró 28.000 cuentas y dejó pérdidas de 250.000 dólares
Las autoridades ucranianas, en coordinación con agentes de EE. UU., han puesto el foco sobre una operación de infostealer que, según la Policía Cibernética de Ucrania, habría si...

RAMPART y Clarity redefinen la seguridad de los agentes de IA con pruebas reproducibles y gobernanza desde el inicio
Microsoft ha presentado dos herramientas de código abierto, RAMPART y Clarity, orientadas a cambiar la manera en que se prueba la seguridad de los agentes de IA: una que automat...

La firma digital está en jaque: Microsoft desmantela un servicio que convirtió malware en software aparentemente legítimo
Microsoft anunció la desarticulación de una operación de “malware‑signing‑as‑a‑service” que explotaba su sistema de firma de artefactos para convertir código malicioso en binari...

Un único token de workflow de GitHub abrió la puerta a la cadena de suministro de software
Un único token de workflow de GitHub falló en la rotación y abrió la puerta. Esa es la conclusión central del incidente en Grafana Labs tras la reciente oleada de paquetes malic...

Webworm 2025: el malware que se esconde en Discord y Microsoft Graph para evadir la detección
Las últimas observaciones de investigadores en ciberseguridad señalan un cambio de tácticas preocupante de un actor vinculado a China conocido como Webworm: en 2025 ha incorpora...

La identidad ya no basta: la verificación continua del dispositivo para una seguridad en tiempo real
La identidad sigue siendo la columna vertebral de muchas arquitecturas de seguridad, pero hoy esa columna está agrietándose bajo nuevas presiones: phishing avanzado, kits que pr...

La materia oscura de la identidad está cambiando las reglas de la seguridad corporativa
El informe Identity Gap: Snapshot 2026 publicado por Orchid Security pone números a una tendencia peligrosa: la "materia oscura" de identidad —cuentas y credenciales que no se v...