GPUBreach: o ataque de Rowhammer em GDDR6 que poderia converter a GPU em uma porta de acesso ao sistema

Publicada 5 min de lectura 106 leituras

Um novo vetor de ataque que os pesquisadores da Universidade de Toronto têm batizado como GPUBreach demonstra que as vulnerabilidades tipo Rowhammer, tradicionalmente associadas a memórias DRAM de CPU, também podem ser exploradas com o GDDR6 em cartões gráficos para conseguir escalada de privilégios e, em última análise, uma tomada completa do sistema.

A chave técnica de GPUBreach é induzir cantos de bit (bit-flips) na memória GDDR6 da GPU de forma controlada. Esses erros não só corrompem blocos de dados: os pesquisadores conseguiram afetar as estruturas de gestão de memória da própria GPU, em particular as entradas das tabelas de páginas (PTEs). Ao danificar o PTEs, obtém-se que um kernel CUDA sem privilégios obtenha leitura e escrita arbitrárias sobre a memória da GPU, uma capacidade que pode se encadear com falhas no controlador do sistema para levar a exploração do lado da GPU ao espaço do CPU e obter privilégios de root.

GPUBreach: o ataque de Rowhammer em GDDR6 que poderia converter a GPU em uma porta de acesso ao sistema
Imagem gerada com IA.

Para entender a gravidade, convém lembrar o que é Rowhammer: é um efeito físico em memórias DRAM que permite, mediante acessos repetidos e cuidadosamente direcionados a filas adjacentes, forçar que bits se invistam em células vizinhas. GPUBreach aplica este princípio a chips GDDR6 usados por muitas GPUs modernas e mostra que o resultado pode escapar do âmbito de mera corrupção de dados e se tornar uma via de escalada de privilégios.

Que a exploitação chegue a corromper as tabelas de páginas da GPU é o que faz o salto especialmente perigoso: As PTEs definem quais páginas de memória existem e com que permissões; se um processo malicioso reesscreve essas entradas pode redireccionar acessos, mapear regiões alheias ou mutear proteções, e com isso ler e modificar memória tanto da GPU quanto, potencialmente, forçar condições aproveitadas pelo controlador do sistema.

A equipe da Universidade de Toronto apresentou seu trabalho na web do projeto GPUBreach e publicará o artigo técnico completo em 13 de abril no congresso IEEE Symposium on Security & Privacy; a versão preliminar técnica já está disponível em seu Documento e o código de reprodução foi depositado no GitHub em sith-lab/gpubreach.

Em seus experimentos os pesquisadores utilizaram uma NVIDIA RTX A6000 com GDDR6, uma GPU frequente em ambientes de desenvolvimento e treinamento de modelos de IA. Isso coloca o problema em um local crítico: infraestruturas e estações de trabalho que executam cargas de aprendizagem automática costumam expor APIs e ambientes onde podem ser carregados kernels e tarefas por usuários que nem sempre estão completamente isolados.

Uma defesa óbvia contra flip- bit são as memórias ECC: corrigem erros de um bit e detectam muitos duplos flips. Mas a proteção que o ECC oferece não é infalível contra erros múltiplos nem é padrão em GPUs de consumo. Os autores apontam ainda que o uso da proteção IOMMU - o hardware que gerencia e restringe o acesso direto à memória por dispositivos (DMA), pensado para evitar que um dispositivo acesse livremente regiões arbitrárias de RAM - não impede GPUBreach quando a GPU é capaz de corromper o estado do controlador de confiança. Para uma introdução ao conceito de IOMMU, consultar a documentação da Intel sobre o VT-d: O que é o VT-d.

Os autores relataram seus achados aos fornecedores afetados (NVIDIA, Google, AWS e Microsoft) e algumas dessas empresas já responderam. O Google reconheceu o relatório e concedeu uma recompensa; a NVIDIA indicou que pode ampliar seu aviso de segurança antes de julho de 2025 para refletir novas vias de ataque relacionadas com o GDDR6. O aviso prévio da NVIDIA pode ser consultado em sua página de suporte. É importante seguir de perto os avisos oficiais dos fabricantes para aplicar adesivos e mitigações logo que estejam disponíveis.

Do ponto de vista prático, GPUBreach transcende a mera demonstração teórica: não só mostra que se podem induzir bit-flips em GDDR6 de forma reprodutível, mas essas corrupções podem ser aproveitadas para alterar estruturas críticas e elevar privilégios sem a necessidade de desativar proteções como a IOMMU, algo que marcava a diferença frente a trabalhos anteriores sobre Rowhammer em GPUs. Uma pesquisa prévia do mesmo grupo, conhecida como GPUHammer, já havia demonstrado a viabilidade de Rowhammer em memórias de GPU; GPUBreach leva a posta para além, para a escalada completa a nível de sistema.

GPUBreach: o ataque de Rowhammer em GDDR6 que poderia converter a GPU em uma porta de acesso ao sistema
Imagem gerada com IA.

O que podem fazer usuários e administradores agora mesmo? Primeiro, minimizar o risco evitando executar código não verificado em GPUs que maneje dados sensíveis ou pertençam a ambientes compartilhados. Segundo, quando possível, optar por hardware com suporte ECC e ativar as mitigações recomendadas pelo fabricante. Terceiro, manter drivers e firmwares atualizados e aplicar configurações de segurança do fornecedor para restringir quem pode carregar kernels nos dispositivos GPU. Finalmente, em ambientes na nuvem, rever as políticas de isolamento de GPU oferecidas pelo fornecedor e exigir garantias sobre a mitigação de hardware/firmware.

GPUBreach é um lembrete potente de que a superfície de ataque da GPU já não é periférica: As GPUs são agora componentes críticos e complexos que gerenciam memória, realizam virtualização e expõem interfaces que, mal protegidas, oferecem caminhos para compromissos em grande escala. A pesquisa completa estará disponível na publicação técnica e no repositório links acima, e sua apresentação no IEEE S&P permitirá à comunidade revertá-la em detalhes e trabalhar contramedidas.

Para aqueles que querem aprofundar, além da página do projeto e do paper, convém seguir a cobertura técnica especializada e as notas de segurança dos fabricantes. Manter-se informado e aplicar uma política de menores privilégios e isolamento em ambientes que usam GPU mitigará o risco até existirem adesivos e medidas de design a nível de hardware que resolvam estas novas categorias de ataques.

Cobertura

Relacionadas

Mas notícias do mesmo assunto.