La compañía de inteligencia artificial Anthropic ha puesto en marcha una iniciativa de ciberseguridad denominada Project Glasswing, que busca aprovechar capacidades avanzadas de su nuevo modelo de frontera, Claude Mythos, para descubrir y corregir fallos críticos en software. En lugar de lanzar esta versión al público en general, la empresa ha optado por trabajar con un grupo limitado de organizaciones —entre las que figuran grandes proveedores de nube, fabricantes de software y entidades financieras— para aplicar la herramienta en la protección de infraestructuras esenciales.
Según lo comunicado por la propia compañía, Claude Mythos en su versión preliminar demostró una habilidad notable para analizar código, razonar sobre sistemas y construir secuencias de explotación que superarían a la mayoría de los expertos humanos en la búsqueda de vulnerabilidades. Ese salto en capacidad plantea una doble lectura: por un lado, puede acelerar la detección y el parcheo de fallos antes de que sean explotados; por otro, introduce el riesgo de que técnicas similares caigan en manos maliciosas. Anthropic ha argumentado que esa dimensión dual —el potencial para defender y al mismo tiempo para atacar— es la razón principal por la que no difundirá el modelo abiertamente. Más sobre el planteamiento público de la empresa puede consultarse en su blog corporativo oficial.

La compañía afirma que Mythos Preview ya identificó miles de vulnerabilidades de alto impacto en sistemas operativos y navegadores importantes, incluidas fallas históricas que llevaban años sin parchearse en proyectos de código abierto. En la práctica, detectar fallos que han permanecido latentes durante décadas pone de manifiesto dos cosas: por un lado, la presencia de riesgos acumulados en software crítico; por otro, que los avances en modelos de IA están alcanzando una capacidad operativa que trasciende tareas de asistencia básica y se mete en terrenos prácticos de explotación y corrección automatizada. Para contrastar hallazgos concretos y antecedentes técnicos, es útil consultar las páginas de seguridad de proyectos reconocidos como OpenBSD o la sección de seguridad de proyectos multimedia como FFmpeg.
Anthropic presenta Project Glasswing como una respuesta urgente: antes de que actores hostiles incorporen técnicas semejantes, la idea es usar esas mismas herramientas para reforzar defensas. El plan incluye colaborar con empresas y organizaciones de primer nivel, además de destinar créditos de uso del modelo y donaciones a iniciativas de seguridad de código abierto. Es una apuesta por convertir una capacidad tecnológica riesgosa en una palanca defensiva coordinada con la industria, una estrategia que recuerda los esfuerzos de colaboración público-privada en materia de ciberseguridad.
La discusión pública, sin embargo, no puede separarse de episodios recientes que ponen en cuestión la propia resiliencia operativa de Anthropic. Antes del anuncio se produjeron filtraciones accidentales de documentación y código: materiales preliminares sobre Mythos quedaron accesibles por error, y posteriormente se expusieron miles de archivos de código fuente asociados a Claude Code durante unas horas. Estos incidentes ilustran que, incluso cuando una organización decide restringir el acceso a tecnologías sensibles, los errores humanos o fallos en procesos internos pueden provocar divulgaciones problemáticas.
El incidente con Claude Code también sacó a la luz un problema concreto de seguridad en el comportamiento del agente que ejecuta comandos en máquinas de desarrolladores. Un informe de seguridad externo apuntó que, por razones de rendimiento, el sistema dejó de aplicar ciertas reglas de denegación cuando un comando contenía más de 50 subcomandos. En la práctica, una protección configurada para bloquear una instrucción peligrosa podía verse eludida si esa instrucción se introducía junto a una larga lista de sentencias aparentemente inofensivas. Es un ejemplo claro de la tensión entre rendimiento, coste y seguridad: sacrificar comprobaciones integrales por rapidez puede abrir atajos que los atacantes exploten. Para contextualizar este tipo de vulnerabilidades y su impacto en ecosistemas de software, conviene revisar recursos como la base de datos de vulnerabilidades del CVE o las publicaciones de organizaciones que investigan seguridad en inteligencia artificial.
La situación plantea preguntas éticas y regulatorias con implicaciones prácticas. ¿Quién decide qué modelos pueden usarse para evaluar infraestructuras críticas y bajo qué condiciones? ¿Cómo compatibilizar la necesidad de transparencia en seguridad con el peligro de divulgar métodos que podrían ser reutilizados por atacantes? En el caso de Anthropic, la respuesta ha sido limitar el acceso, establecer acuerdos colaborativos con actores clave y financiar trabajos en la comunidad de seguridad abierta. Estas medidas van en línea con la idea de que la gobernanza de las tecnologías de frontera debe incluir tanto controles técnicos como canales de cooperación entre empresas, proyectos de código abierto y gobiernos.
Pero las limitaciones operativas no sustituyen la necesidad de auditorías independientes, marcos normativos claros y prácticas de seguridad por diseño. Los modelos que razonan sobre código y construyen exploits de manera autónoma requieren controles de seguridad más robustos, desde pruebas de penetración realizadas por terceros hasta políticas internas que eviten la exposición accidental de información sensible. Además, la comunidad técnica y los responsables políticos deben debatir cómo equilibrar la innovación con salvaguardas: donar recursos y créditos a proyectos de seguridad de código abierto puede ayudar, pero no resuelve por sí solo la cuestión más amplia de gobernanza y responsabilidad.

Otro aspecto a considerar es la velocidad a la que estas capacidades emergen de mejoras generales en la escritura de código y en el razonamiento automático, más que de un entrenamiento dirigido específicamente a explotar fallos. Eso implica que los modelos que se vuelven significativamente más competentes en programación pueden generar consecuencias no previstas en ámbitos de seguridad. El reto para las empresas que desarrollan IA consiste en anticipar y mitigar esos efectos colaterales sin frenar la investigación útil.
En última instancia, el caso de Project Glasswing y Claude Mythos subraya una lección práctica: la era en la que la ciberseguridad se enfrentaba solo a errores humanos o defectos de software está cambiando. Ahora aparecen herramientas automatizadas con capacidad para encontrar, explotar y, crucialmente, ayudar a corregir vulnerabilidades a una escala que exige respuestas coordinadas. Para informarse sobre la cobertura periodística y el análisis de estos eventos en medios especializados, puede consultarse la sección tecnológica de agencias informativas como Reuters o el seguimiento de los grandes proyectos y fundaciones en páginas como la Linux Foundation, que suelen participar en iniciativas de seguridad colaborativa.
La combinación de transparencia responsable, auditoría externa, inversión en la comunidad de seguridad y normas claras para el uso de modelos potentes parece hoy el camino más prudente. Mientras tanto, el ecosistema deberá aprender a convivir con herramientas que son, a la vez, una esperanza para defender sistemas críticos y una advertencia sobre el poder de la automatización cuando no se acompaña de controles adecuados.
Relacionadas
Mas noticias del mismo tema.

Joven ucraniano de 18 años lidera una red de infostealers que vulneró 28.000 cuentas y dejó pérdidas de 250.000 dólares
Las autoridades ucranianas, en coordinación con agentes de EE. UU., han puesto el foco sobre una operación de infostealer que, según la Policía Cibernética de Ucrania, habría si...

RAMPART y Clarity redefinen la seguridad de los agentes de IA con pruebas reproducibles y gobernanza desde el inicio
Microsoft ha presentado dos herramientas de código abierto, RAMPART y Clarity, orientadas a cambiar la manera en que se prueba la seguridad de los agentes de IA: una que automat...

La firma digital está en jaque: Microsoft desmantela un servicio que convirtió malware en software aparentemente legítimo
Microsoft anunció la desarticulación de una operación de “malware‑signing‑as‑a‑service” que explotaba su sistema de firma de artefactos para convertir código malicioso en binari...

Un único token de workflow de GitHub abrió la puerta a la cadena de suministro de software
Un único token de workflow de GitHub falló en la rotación y abrió la puerta. Esa es la conclusión central del incidente en Grafana Labs tras la reciente oleada de paquetes malic...

Webworm 2025: el malware que se esconde en Discord y Microsoft Graph para evadir la detección
Las últimas observaciones de investigadores en ciberseguridad señalan un cambio de tácticas preocupante de un actor vinculado a China conocido como Webworm: en 2025 ha incorpora...

La identidad ya no basta: la verificación continua del dispositivo para una seguridad en tiempo real
La identidad sigue siendo la columna vertebral de muchas arquitecturas de seguridad, pero hoy esa columna está agrietándose bajo nuevas presiones: phishing avanzado, kits que pr...

La materia oscura de la identidad está cambiando las reglas de la seguridad corporativa
El informe Identity Gap: Snapshot 2026 publicado por Orchid Security pone números a una tendencia peligrosa: la "materia oscura" de identidad —cuentas y credenciales que no se v...