Microsoft apresenta uma ferramenta leve para detectar portas traseiras em modelos de linguagem sem voltar a treinar

A Microsoft apresentou uma ferramenta leve destinada a identificar portas traseiras escondidas em modelos de linguagem de código aberto, uma preocupação crescente no mundo da inteligência artificial. Em termos simples, uma porta traseira num modelo é um comportamento malicioso incorporado nos parâmetros durante o treinamento que permanece inactivo até que aparece certo estímulo - o chamado disparador - e então faz com que o modelo atue de forma inesperada ou daninha.

A proposta, descrita pela equipe de segurança da IA da empresa e disponível em um documento público, combina sinais observáveis do comportamento interno dos modelos para assinalar quando pode haver esse tipo de manipulação. A graça da abordagem é que não requer voltar a treinar o modelo nem conhecer antecipadamente qual é a porta traseira, o que a torna uma opção prática para rever grandes quantidades de modelos estilo GPT sempre que tenha acesso aos seus pesos.

Microsoft apresenta uma ferramenta leve para detectar portas traseiras em modelos de linguagem sem voltar a treinar — Imagem gerada com IA.

Para entender por que isso importa convém lembrar dois fatos que demonstraram pesquisadores anteriores: os grandes modelos de linguagem podem decorar fragmentos dos dados em que foram treinados, e essa memoritzação facilita que exemplos específicos (incluindo disparadores) possam ser recuperados mediante técnicas de extração de memória. A Microsoft parte dessa observação e acrescenta que, quando um disparador aparece na entrada, certos indicadores internos do modelo mudam de forma reprodutível.

Entre esses indicadores figuram padrões distintivos nas cabeças de atenção - um mecanismo chave que decide quais partes do texto devem se ponderar mais - onde o modelo chega a se concentrar de maneira quase exclusiva no disparador, gerando uma estrutura reconhecível nas matrizes de atenção. Se você quer aprofundar em que é a atenção e como funciona, há recursos divulgativos e técnicos, por exemplo em esta entrada da Wikipédia. Além disso, os pesquisadores observam mudanças na distribuição de saídas do modelo: a presença do disparador reduz a "aleatoriedade" das respostas, produzindo saídas muito mais deterministas do habitual.

A ferramenta combina a extração de conteúdos memorizados com uma análise que detecta sub sequências relevantes e as avalia mediante funções de perda projetadas para capturar esses três sinais empíricos. O resultado é uma lista ordenada de candidatos a disparadores que merece uma inspeção humana adicional. Na prática, o scanner primeiro tira material que o modelo memorizou; depois busca fragmentos que poderiam atuar como gatilhos; e finalmente pontua e ordena esses fragmentos segundo as assinaturas detectadas.

É importante sublinhar que não estamos perante uma panaceia. O sistema precisa de acesso aos arquivos do modelo, pelo que não serve para modelos proprietários fechados que não podem ser examinados internamente. Funciona melhor com portas traseiras ativadas por disparadores textuais que produzem respostas deterministas; ataques mais sofisticados ou baseados em modificações de código, plugins ou dados externos podem evitá-lo. A Microsoft reconhece essas limitações e descreve a proposta como um avanço prático que pode ser integrado em processos de avaliação mais amplos.

A iniciativa surge num momento em que empresas e equipamentos de segurança buscam adaptar práticas de desenvolvimento seguro a sistemas impulsionados pela IA. A Microsoft anunciou que ampliará o seu ciclo de vida de desenvolvimento seguro (SDL) para incluir riscos específicos da IA — desde injeções de prompt até envenenamento de dados — e apela a uma visão mais ampla do perímetro de confiança porque os sistemas baseados em modelos introduzem novos vetores de entrada e de risco. Você pode consultar a explicação oficial no blog de segurança da Microsoft aqui.

A detecção de portas traseiras em modelos não é um tema novo; a literatura sobre ataques de envenenamento e portas traseiras em redes neurais leva anos em desenvolvimento — por exemplo, trabalhos como BadNets e estudos sobre extração de dados memorizados como o de Carlini et al. ( Extracting Training Data from Large Language Models) estabeleceram as bases para estas linhas de investigação. O que traz a equipe da Microsoft é uma abordagem operacional concebida para digitalizar modelos “a escala” e com baixos índices de falsos positivos, aproveitando sinais internos que resultam reproduzidos em modelos da família GPT.

Em termos práticos, isto significa que organizações que distribuem modelos de código aberto, integradores ou auditorias de segurança podem incorporar ferramentas como esta para reduzir o risco de um modelo implantado conter um comportamento oculto. Mesmo assim, a comunidade de segurança concorda que a defesa completa exigirá uma combinação de análise estática e dinâmica, controles da cadeia de fornecimento de modelos, boas práticas nos conjuntos de dados de treinamento e colaboração aberta entre empresas, academia e reguladores.

Em suma, o trabalho da Microsoft é um sinal de que a segurança em IA está amadurecendo: As soluções começam a ser mais práticas e orientadas para a implantação real, mas continuarão a ser necessárias mais investigações, normas e cooperação para mitigar os riscos sistémicos.. Se quiser ler o relatório técnico original que descreve o desenho e os testes do scanner, está disponível no repositório de preprints ( arXiv), e a entrada da própria equipe da Microsoft explica a abordagem da perspectiva operacional em seu blog de segurança aqui.

Cobertura

Relacionadas

Mas notícias do mesmo assunto.

20 de maio de 2026 5 min de lectura 11

Jovem ucraniano de 18 anos lidera uma rede de infostealers que violou 28.000 contas e deixou perdas de 250 mil dólares

As autoridades ucranianas, em coordenação com agentes dos EUA. Os EUA puseram o foco numa operação. infostealer que, segundo a Polícia Cibernética da Ucrânia, teria sido adminis...

20 de maio de 2026 4 min de lectura 15

RAMPART e Clarity redefinem a segurança dos agentes da IA com testes reprodutíveis e governança desde o início

A Microsoft apresentou duas ferramentas de código aberto, RAMPART e Clarity, que visam alterar a forma como a segurança dos agentes da IA é testada: uma máquina de computador e ...

20 de maio de 2026 4 min de lectura 19

A assinatura digital está em jaque: Microsoft desmantela um serviço que tornou malware em software aparentemente legítimo

A Microsoft anunciou a desarticulação de uma operação de "malware‐signing‐as‐a-service" que explorava seu sistema de assinatura de artefatos para converter código malicioso em b...

Um único token de workflow do GitHub abriu a porta para a cadeia de fornecimento de software

20 de maio de 2026 4 min de lectura 8

Explore RadarBytes

Microsoft apresenta uma ferramenta leve para detectar portas traseiras em modelos de linguagem sem voltar a treinar

Desactiva o seu bloqueador de anúncios

Microsoft apresenta uma ferramenta leve para detectar portas traseiras em modelos de linguagem sem voltar a treinar

Relacionadas

Jovem ucraniano de 18 anos lidera uma rede de infostealers que violou 28.000 contas e deixou perdas de 250 mil dólares

RAMPART e Clarity redefinem a segurança dos agentes da IA com testes reprodutíveis e governança desde o início

A assinatura digital está em jaque: Microsoft desmantela um serviço que tornou malware em software aparentemente legítimo

Um único token de workflow do GitHub abriu a porta para a cadeia de fornecimento de software

Webworm 2025: o malware que se esconde em Discord e Microsoft Graph para evitar a detecção

A identidade já não basta: a verificação contínua do dispositivo para uma segurança em tempo real

A matéria escura da identidade está mudando as regras da segurança corporativa

Gerir seus cookies