El razonamiento en voz alta de los navegadores agentes abre la puerta a estafas masivas

Publicada 6 min de lectura 87 lecturas

En los últimos meses hemos visto cómo los navegadores que incorporan capacidades de inteligencia artificial han pasado de ser meros asistentes a convertirse en agentes que pueden realizar tareas por sí mismos: rellenar formularios, navegar por varias páginas y ejecutar secuencias de acciones en nombre del usuario. Esa autonomía promete productividad, pero también abre nuevas puertas a los atacantes. Un informe reciente de la firma Guardio describe un escenario inquietante en el que estos navegadores “agenticos” pueden ser engañados para caer en trampas de phishing y fraude sin que el usuario tenga que intervenir directamente. Puedes leer el informe completo de Guardio aquí: Guardio: Agentic Blabbering.

La mecánica del ataque aprovecha una característica que, paradójicamente, se percibe como ventaja: muchos agentes basados en modelos de lenguaje explican en voz alta —o en sus registros— por qué toman ciertas decisiones. Ese “razonamiento en voz alta” actúa como una ventana para un atacante: si puede observar qué elementos de una página hacen dudar al agente, o qué señales considera sospechosas, podrá iterar contra el modelo hasta diseñar una página maliciosa que el navegador acepte como legítima. Guardio demuestra que, alimentando esa información a técnicas de aprendizaje adversario —por ejemplo usando una red generativa adversaria (GAN)— es posible crear en minutos páginas de phishing que esquivan las defensas del agente.

El razonamiento en voz alta de los navegadores agentes abre la puerta a estafas masivas
Imagen generada con IA.

Los investigadores acuñaron un término descriptivo para este fenómeno: Agentic Blabbering. La idea es simple y potente: cuando el agente “parlotea” sobre lo que ve y va a hacer, ese parloteo es una fuente de datos que un atacante puede utilizar para entrenar automáticamente su trampa. A partir de ahí, el atacante no necesita convencer al usuario humano; su objetivo es engañar al modelo que actúa por millones de usuarios iguales. Guardio incluso mostró cómo un agente comercial, en este caso el navegador Comet de Perplexity, pudo ser inducido a caer en una estafa de phishing en menos de cuatro minutos en condiciones de laboratorio.

Este comportamiento no surge de la nada: es la evolución de vectores de ataque previos que buscaban inyectar instrucciones en prompts o forzar a plataformas de generación a producir páginas o acciones maliciosas. Técnicas como la “vibe-scamming” o el uso de inyecciones ocultas en el contenido ya habían mostrado que los modelos que siguen instrucciones pueden ser manipulados desde la propia web. La diferencia ahora es que el adversario puede afinar su cebo de forma offline, iterando hasta que la trampa funcione de forma confiable contra un modelo concreto, y luego desplegarla con un alto grado de éxito contra cualquier usuario que utilice ese agente.

La investigación de Guardio no está sola: otras firmas y equipos han demostrado vectores complementarios. Trail of Bits realizó una auditoría en profundidad sobre Comet y detalló varias técnicas de inyección de prompts que permiten extraer información privada al combinar peticiones legítimas del usuario con instrucciones controladas por un atacante desde páginas web maliciosas. Su análisis técnico está disponible en el blog de Trail of Bits: Using threat modeling and prompt injection to audit Comet, y enlaza además a un trabajo académico que explora estas inyecciones: prompt injection techniques (arXiv).

Zenity Labs, por su parte, describió ataques de “clic cero” que permitían exfiltrar archivos locales o incluso intentar tomar control de cofres de contraseñas si el entorno del usuario tenía extensiones desbloqueadas, como 1Password. Sus posts, PerplexedComet: exfiltración de archivos y ataque a cofres de 1Password, explican cómo vectores aparentemente inocuos, como una invitación de calendario o una página para resumir, pueden transformarse en canales de fuga cuando el agente fusiona instrucciones legítimas y maliciosas.

Los ataques descritos se basan en una limitación fundamental de los sistemas: la incapacidad fiable de separar la intención legítima del usuario de instrucciones embebidas en contenido no confiable. Los investigadores llaman a esto “intent collision”, es decir, la colisión de intenciones, y ocurre cuando el agente combina una petición del usuario con comandos introducidos por un atacante en la página y los ejecuta sin poder distinguir de forma segura cuál proviene del usuario y cuál del atacante.

¿Qué implicaciones prácticas tiene todo esto para la gente que navega ahora mismo? Primero, el riesgo deja de ser únicamente personal: un atacante que perfeccione un exploit contra un modelo de navegador puede alcanzar a millones de personas que usan ese mismo agente. Segundo, las defensas tradicionales centradas en educar al usuario para que no pulse enlaces sospechosos pierden parte de su eficacia, porque la víctima directa del engaño es el agente y no la persona. Y tercero, la capacidad de los atacantes de ensayar y optimizar sus páginas fuera de línea convierte a estas amenazas en algo más parecido a una línea de producción: pruebas, mejora y despliegue masivo.

Eso no significa que estemos indefensos. Las mitigaciones propuestas incluyen mejoras técnicas como la detección automática de ataques adversariales, entrenamiento adversario de los modelos y nuevas salvaguardas a nivel de sistema que limiten qué acciones autónomas puede ejecutar un agente y cómo comunica su razonamiento. Empresas y auditores ya trabajan en esa dirección; de hecho, Perplexity y otros proveedores han corregido y endurecido componentes tras las divulgaciones de Trail of Bits y Zenity. Puedes revisar el aviso de seguridad de 1Password sobre integración con navegadores asistidos por IA en su comunicado.

El razonamiento en voz alta de los navegadores agentes abre la puerta a estafas masivas
Imagen generada con IA.

Pero hay una enseñanza más amplia: la introducción de capacidades autónomas requiere repensar la superficie de ataque completa. Modelos que explican su proceso de decisión deben hacerlo de forma que no faciliten aprendizajes iterativos a atacantes. Además, los proveedores tendrán que combinar técnicas de ingeniería de prompts, políticas de aislamiento entre fuentes de datos y análisis de comportamiento en tiempo real para identificar cuando un agente está siendo manipulado. OpenAI, por ejemplo, ha señalado en el pasado que las vulnerabilidades de este tipo son difíciles de erradicar por completo y que la reducción del riesgo pasa por una mezcla de prevención automatizada y diseño seguro del sistema (nota: los lectores pueden consultar las publicaciones técnicas y avisos de seguridad de los fabricantes para detalles sobre enfoques y limitaciones).

Mientras el sector avanza en salvaguardas, ¿qué pueden hacer los usuarios hoy? Mantener extensiones sensibles como gestores de contraseñas cerradas o bloqueadas cuando no se usan, revisar con cuidado qué funciones automáticas se habilitan en los navegadores asistidos por IA y preferir herramientas que ofrezcan transparencia y controles granulares sobre acciones automáticas son medidas prudentes. A nivel organizacional conviene auditar flujos que deleguen decisiones en agentes y establecer barreras que eviten que un agente, por ejemplo, escriba credenciales o descargue ficheros sin una confirmación segura.

La promesa de los navegadores agenticos es grande: ahorrar tiempo, evitar clics repetitivos y hacer la web más accesible. Sin embargo, la investigación reciente nos recuerda que cada capa de autonomía introduce nuevos riesgos. La seguridad en la era de agentes autónomos no es solo un problema de usuarios desprevenidos: es un problema de diseño de sistemas que deben protegerse contra adversarios que aprenden del propio comportamiento de esos sistemas. Entender esa dinámica y exigir a proveedores auditorías, transparencia y mitigaciones efectivas será crucial para que la tecnología cumpla sus promesas sin convertirse en una herramienta amplificada por los estafadores.

Cobertura

Relacionadas

Mas noticias del mismo tema.