La adopción de la inteligencia artificial ya dejó de ser una novedad técnica para convertirse en una exigencia estratégica en muchas juntas directivas. Los consejos, inversores y equipos ejecutivos presionan para que la IA se implemente en operaciones y seguridad, y esa presión se siente en los equipos de ciberseguridad: la tecnología está en uso y las pruebas de seguridad deben ponerse a la altura. Para entender por qué, basta recordar que los entornos actuales cambian constantemente y que las tácticas de los atacantes evolucionan con rapidez, de modo que los análisis estáticos y rígidos ya no bastan.
En la práctica, los equipos de seguridad necesitan que las pruebas no solo detecten fallos puntuales, sino que reproduzcan ataques de manera que permitan medir mejoras a lo largo del tiempo. Aquí surge una tensión fundamental: la IA puede ofrecer adaptabilidad y creatividad, pero esa misma naturaleza probabilística complica la reproducibilidad y la comparabilidad entre ejecuciones. En muchos ámbitos, la variabilidad es una virtud —un asistente de programación puede ofrecer varias soluciones válidas—, pero cuando la meta es validar controles de seguridad, la incertidumbre se vuelve un problema. Si una plataforma decide de forma distinta en cada corrida, ¿cómo saber si un defecto fue realmente corregido o si simplemente la herramienta eligió otro camino?

Una corriente de desarrollo apuesta por sistemas completamente agentivos, en los que modelos de IA toman decisiones de principio a fin. Esa autonomía promete una exploración más amplia y menos dependencia de scripts predefinidos, pero introduce dos riesgos relevantes para programas de seguridad estructurados. El primero es la pérdida de consistencia: una prueba puede variar sin que el operador pueda demostrar que la metodología fue la misma. El segundo es la dificultad para auditar y repetir una cadena de ataque concreta en condiciones controladas, algo esencial cuando se exige cumplimiento o cuando hay que validar remediaciones.
La supervisión humana —el llamado human-in-the-loop— mitiga algunos riesgos porque permite que analistas revisen y aprueben acciones, pero no elimina la raíz del problema: incluso con revisión, la IA puede razonar de forma distinta entre ejecuciones, y la carga de asegurar uniformidad recae en el equipo humano, incrementando el esfuerzo manual y reduciendo el valor de la automatización.
Por eso está ganando tracción un enfoque híbrido que separa la estructura de ejecución de la capacidad de adaptación. En ese diseño, una lógica determinista orquesta las cadenas de ataque y define la forma en que se reproducen las pruebas; sobre esa columna vertebral, la IA interviene para ajustar cargas útiles, interpretar señales del entorno y adaptar técnicas concretas según lo que encuentre en tiempo real. El resultado combina estabilidad y realismo: se preservan líneas de ataque repetibles mientras la IA aporta contexto y refinamiento.
Una ventaja práctica de este modelo es la posibilidad de replicar un vector de escalada de privilegios bajo las mismas condiciones y volver a ejecutarlo tras aplicar un parche o una configuración nueva. Si la segunda ejecución no muestra la misma explotación, la conclusión es clara: la mitigación funcionó. Si en cambio las pruebas cambian de forma impredecible, la interpretación de los resultados se complica y la confianza en las métricas disminuye. Para organizaciones que pasan de pruebas puntuales a una práctica de validación continua —donde se prueban sistemas semanal o diariamente para verificar remediaciones y medir la superficie de exposición—, esa confianza es imprescindible.
Este debate sobre determinismo frente a autonomía no es exclusivo del sector de la ciberseguridad. En la gobernanza de IA, las juntas y comités han comenzado a demandar marcos que prioricen transparencia, responsabilidad y riesgos gestionables; la literatura de dirección y gestión lo discute con insistencia: ver por ejemplo el análisis sobre cómo los consejos de administración deben supervisar la IA en la Harvard Business Review. En el ámbito técnico, organismos como el NIST trabajan en marcos para gestionar riesgos de IA que enfatizan trazabilidad y controles, condiciones que casan mejor con modelos que permiten repetición y auditoría.
Por su parte, la comunidad de emulación de atacantes y modelos de amenaza ha promovido marcos que facilitan reproducir tácticas y técnicas conocidas; ejemplos como MITRE ATT&CK muestran la importancia de categorización y consistencia para comparar defensas en diferentes momentos. Y frente al auge de sistemas 'agentivos' públicos y experimentales —como las menciones mediáticas sobre Auto-GPT y agentes autónomos— también han surgido advertencias sobre los límites de delegar decisiones críticas sin controles robustos (The Verge y otras publicaciones han cubierto estos debates).
En la práctica, varias plataformas comerciales están adoptando la filosofía híbrida: una capa determinista que garantiza líneas base estables y retestings controlados, y una capa de IA que enriquece los ataques con variaciones contextualizadas. La idea no es coartar la inteligencia, sino anclarla: que la IA mejore la fidelidad de las pruebas sin redefinir el método cada vez que se ejecuta. Esa mezcla facilita auditorías, acelera la validación post-remediación y permite que los equipos de seguridad se centren en la interpretación y la toma de decisiones reales, en lugar de invertir horas en verificar la consistencia del propio motor de pruebas.

Para responsables de seguridad que deben seleccionar herramientas, la recomendación práctica es clara: priorizar plataformas que ofrezcan trazabilidad de ejecución, capacidad de repetir ataques bajo condiciones idénticas y flexibilidad para incorporar inteligencia contextual. Esa elección no solo reduce el ruido en los resultados, sino que también facilita procesos regulatorios y la comunicación con directivos e inversores sobre la evolución real del riesgo. En líneas generales, conviene exigir evidencia técnica de cómo una solución incorpora IA, qué controles deterministas aplica y cómo permite auditar cada paso.
La convergencia entre determinismo y adaptación no elimina los retos. Habrá que vigilar el sesgo, el riesgo de sobreconfianza en decisiones automatizadas y la necesidad de controles humanos bien definidos. Aun así, cuando el objetivo es validar y medir, la consistencia importa tanto como la inteligencia, y las soluciones que permitan ambas cosas son las que ofrecen mayor valor a programas de seguridad que deben operar de forma continua y verificable.
Este artículo toma como punto de partida reflexiones plasmadas en el informe y análisis de Pentera sobre seguridad y exposición impulsada por IA. Para quien quiera profundizar en la práctica industrial y en investigaciones vinculadas a ataques reproducibles y validación continua, puede consultarse la web de Pentera en pentera.io y los recursos técnicos y de investigación disponibles en su área de laboratorio.
Relacionadas
Mas noticias del mismo tema.

Joven ucraniano de 18 años lidera una red de infostealers que vulneró 28.000 cuentas y dejó pérdidas de 250.000 dólares
Las autoridades ucranianas, en coordinación con agentes de EE. UU., han puesto el foco sobre una operación de infostealer que, según la Policía Cibernética de Ucrania, habría si...

RAMPART y Clarity redefinen la seguridad de los agentes de IA con pruebas reproducibles y gobernanza desde el inicio
Microsoft ha presentado dos herramientas de código abierto, RAMPART y Clarity, orientadas a cambiar la manera en que se prueba la seguridad de los agentes de IA: una que automat...

Un único token de workflow de GitHub abrió la puerta a la cadena de suministro de software
Un único token de workflow de GitHub falló en la rotación y abrió la puerta. Esa es la conclusión central del incidente en Grafana Labs tras la reciente oleada de paquetes malic...

Webworm 2025: el malware que se esconde en Discord y Microsoft Graph para evadir la detección
Las últimas observaciones de investigadores en ciberseguridad señalan un cambio de tácticas preocupante de un actor vinculado a China conocido como Webworm: en 2025 ha incorpora...

La identidad ya no basta: la verificación continua del dispositivo para una seguridad en tiempo real
La identidad sigue siendo la columna vertebral de muchas arquitecturas de seguridad, pero hoy esa columna está agrietándose bajo nuevas presiones: phishing avanzado, kits que pr...

Mini Shai-Hulud: el ataque que convirtió las dependencias en vectores de intrusión masiva
Resumen del incidente: GitHub investiga un acceso no autorizado a repositorios internos después de que el actor conocido como TeamPCP puso a la venta en un foro delictivo el sup...

Alerta de seguridad: CVE-2026-45829 expone ChromaDB a ejecución remota de código sin autenticación
Un fallo crítico en la API Python de ChromaDB —la popular base de vectores usada para recuperación durante inferencia de LLM— permite a atacantes no autenticados ejecutar código...