Há poucos dias, uma pesquisa pública mostrou uma forma particularmente alarmante de ataque que combina vetores tradicionais de segurança com a nova realidade de assistentes de código impulsionados por inteligência artificial. A assinatura Orca Security bautizou a fraqueza como RoguePilot: um erro na interação entre o GitHub Codespaces e o GitHub Copilot que, em determinadas condições, permitia a um atacante introduzir instruções maliciosas dentro de uma incidência (issue) e conseguir que o assistente de IA as execute sem que o desenvolvedor se percasse.
O mecanismo é, em aparência, simples e, no entanto, perigoso porque aproveita fluxos de trabalho de confiança. Quando um usuário abre um Codespace do contexto de uma issue, Copilot recebe automaticamente o conteúdo dessa issue como parte de seu prompt. Um ator malicioso pode esconder comandos dentro do texto (por exemplo, usando um comentário HTML como ...) de modo que o modelo os processa como instruções legítimas. Com a cadeia de ações adequada — por exemplo, forçando a revisão ou o checkout de um pull request especialmente preparado com links simbólicos e um esquema JSON remoto — o assistente pode ser induzido a ler arquivos internos e filtrar segredos sensíveis, como o token com privilégios GITHUB_TOKEN, para servidores controlados pelo atacante. Orca explica pormenorizadamente o teste de conceito no seu relatório: RoguePilot — Orca Security.

A Microsoft e o GitHub receberam a divulgação responsável e corrigiram o problema, mas a relevância do caso vai além de um adesivo pontual. Trata-se de uma nova classe de ameaça que alguns especialistas já descrevem como injeção de prompts passiva ou indireta: não se ataca diretamente ao modelo, mas se insere conteúdo malicioso em artefatos que legitimamente acabam sendo consumidos pelo LLM em fluxos automatizados. Por outras palavras, os dados dos desenvolvedores são convertidos em uma cadeia de fornecimento atacavel para a IA.
Este episódio chega em um momento em que a pesquisa sobre ataques a modelos de linguagem e agentes autônomos está a acelerar. A Microsoft publicou recentemente um estudo que mostra como técnicas de afinamento pós-despliegue baseadas em aprendizagem por reforço, como a denominada Group Relative Policy Optimization (GRPO), podem eliminar características de segurança do modelo se forem aplicadas de forma adversa - um processo que os pesquisadores denominaram GRP-Obliteration. O trabalho demonstra que mesmo exemplos de prompt aparentemente inocuos podem desalinear modelos e torná-los mais permissivos perante conteúdos prejudiciais; o relatório técnico está disponível na página da Microsoft: Prompt attack breaks LLM safety — Microsoft Security e o estudo de GRPO pode ser consultado em arXiv.
Ao mesmo tempo, outros trabalhos revelaram canais laterais e vetores que ampliam ainda mais a superfície de ataque: desde técnicas que permitem inferir o tema de uma conversa ou até mesmo “huellificar” consultas de usuários com alta precisão, até optimizações internas dos modelos – como a Descodificação especulativa — que, sem o propor, abrem possibilidades de exploração. Pesquisas publicadas em arXiv analisam essas vias e documentam diversos mecanismos que permitem filtrar informações ou deduzir padrões de uso: arXiv 2410.17175, arXiv 2411.01076.
A ameaça não se limita a prompts de texto. HiddenLayer descreveu um ataque chamado Agentic ShadowLogic que aproveita backdoors a nível do grafo computacional para interceptar chamadas de ferramentas (tool calls) de agentes: o atacante pode redireccionar em tempo real solicitações através de sua própria infraestrutura, registrar tráfego e depois reenviar o pedido ao destino real sem que o usuário note nenhuma anomalia. O risco é alto porque, da superfície, tudo parece funcionar corretamente enquanto nas sombras está coletando informações críticas. Mais detalhes na publicação do HiddenLayer: Agentic ShadowLogic — HiddenLayer.
No terreno da geração de imagens, também foram encontradas técnicas de evasão de filtros de segurança. Neural Trust mostrou uma tática chamada Semantic Chaining onde, através de uma série de modificações sucessivas e aparentemente inocuas a uma imagem, um atacante consegue levar o modelo a produzir um resultado proibido que não teria passado uma verificação direta. Esta estratégia explora a falta de “profundidade de raciocínio” em alguns modelos ao tentar modificações sobre um conteúdo existente em vez de criar algo de zero; podem ler sua explicação completa aqui: Semantic Chaining — Neural Trust.
Estas descobertas levaram pesquisadores a cunhar novos conceitos para descrever ameaças emergentes. Entre eles destaca o termo promptware, proposto por um grupo de acadêmicos que analisam como prompts projetados com intenção maliciosa podem orquestrar fases típicas de uma intrusão (acesso inicial, escalada de privilégios, movimento lateral, exfiltração, etc.) aproveitando permissões e funcionalidades de aplicações que integram LLMs. O documento técnico que introduz a ideia está disponível em arXiv, e Bruce Schneier comentou suas implicações de uma perspectiva de segurança prática: Promptware — arXiv e A coluna de Schneier.
O que significa tudo isso para equipes de desenvolvimento e responsáveis pela segurança? Em primeiro lugar, os fluxos automatizados que integram conteúdo externo com agentes de IA devem ser revistos e, quando possível, isolados. Não é seguro assumir que o texto que chega de uma issue, um PR ou um modelo é inofensivo; há que tratar essas entradas como dados não confiáveis e aplicar sanitização e políticas de minimalidade de privilégios. A nível operacional é prudente rodar tokens e credenciais com frequência, limitar o alcance de tokens para que não concedam mais permissões dos estritamente necessários, e desativar a execução automática de sugestões ou ações em ambientes que possam arrancar a partir de conteúdos não verificados.

Também cabe aos fornecedores de plataformas e aos desenvolvedores de modelos reforçar as defesas: melhorar a detecção de injeções de prompt, aplicar controles de contexto que distingam entre instruções explícitas do usuário e dados incorporados em artefatos, e projetar mecanismos de validação que evitem que um agente atue sobre conteúdo oculto ou encoberto. Além disso, a criação de sinais de rastreabilidade e auditoria — registo detalhado de quando e por que um agente tomou uma ação — ajudará a detectar e mitigar incidentes de forma mais rápida.
RoguePilot é um lembrete contundente de que a adoção de IA em fluxos de trabalho reais traz grandes benefícios, mas também aumenta a complexidade da superfície de ataque. A segurança já não é apenas evitar exploits em servidores ou bibliotecas: inclui controlar o que entende e executa uma IA quando se alimenta com dados do mundo real. A colaboração entre pesquisadores, fornecedores e responsáveis por produtos, bem como a divulgação responsável e a rápida aplicação de mitigações, serão chaves para que esses sistemas continuem a fornecer valor sem se tornar um vetor de risco inaceitável.
Se você quiser aprofundar as fontes originais, você pode consultar a análise técnica de Orca sobre RoguePilot ( Orca Security), pesquisas da Microsoft sobre ataques à segurança de LLMs ( Microsoft Security Blog), os documentos acadêmicos em arXiv, o relatório de HiddenLayer sobre Agentic ShadowLogic ( HiddenLayer) e a peça de Neural Trust sobre Semantic Chaining ( Neural Trust), entre outras leituras críticas para entender melhor a evolução dessas ameaças.
Relacionadas
Mas notícias do mesmo assunto.

Jovem ucraniano de 18 anos lidera uma rede de infostealers que violou 28.000 contas e deixou perdas de 250 mil dólares
As autoridades ucranianas, em coordenação com agentes dos EUA. Os EUA puseram o foco numa operação. infostealer que, segundo a Polícia Cibernética da Ucrânia, teria sido adminis...

RAMPART e Clarity redefinem a segurança dos agentes da IA com testes reprodutíveis e governança desde o início
A Microsoft apresentou duas ferramentas de código aberto, RAMPART e Clarity, que visam alterar a forma como a segurança dos agentes da IA é testada: uma máquina de computador e ...

A assinatura digital está em jaque: Microsoft desmantela um serviço que tornou malware em software aparentemente legítimo
A Microsoft anunciou a desarticulação de uma operação de "malware‐signing‐as‐a-service" que explorava seu sistema de assinatura de artefatos para converter código malicioso em b...

Um único token de workflow do GitHub abriu a porta para a cadeia de fornecimento de software
Um único token de workflow do GitHub falhou na rotação e abriu a porta. Essa é a conclusão central do incidente em Grafana Labs após a recente onda de pacotes maliciosos publica...

Webworm 2025: o malware que se esconde em Discord e Microsoft Graph para evitar a detecção
As últimas observações de pesquisadores em cibersegurança apontam uma mudança de táticas preocupantes de um ator ligado à China conhecido como Webworm: Em 2025, ele introduziu p...

A identidade já não basta: a verificação contínua do dispositivo para uma segurança em tempo real
A identidade continua sendo a coluna vertebral de muitas arquiteturas de segurança, mas hoje essa coluna está se agride sob novas pressões: phishing avançado, kits que proxyam a...

A matéria escura da identidade está mudando as regras da segurança corporativa
O relatório Identity Gap: Snapshot 2026 publicado por Orchid Security coloca números a uma tendência perigosa: a "matéria escura" de identidade —contas e credenciais que não se ...