GPUBreach: o RowHammer invade a memória da GPU e pode assumir o controle do seu sistema

Publicada 6 min de lectura 107 leituras

Nos últimos meses a comunidade de segurança voltou a olhar para um velho conhecido: o RowHammer. O que até recentemente parecia um problema principalmente de memória principal (DRAM) agora deu um salto inquietante para os cartões gráficos de alto desempenho, onde pesquisadores acadêmicos demonstraram ataques práticos capazes não só de corromper dados, mas de escalar privilégios e até mesmo tomar o controle total de um sistema anfitrião.

RowHammer é um fenômeno físico das memórias dinâmicas (DRAM) pelo qual acessos repetidos a uma fila de células geram interferências elétricas que podem provocar flips em filas adjacentes, transformando zeros em uns ou vice-versa e rompendo as garantias de isolamento que sustentam sistemas operacionais e sandboxing. A técnica tem sido objeto de estudo há anos e está documentada em recursos técnicos gerais como a entrada de referência sobre RowHammer na enciclopédia técnica Wikipédia e em vários estudos acadêmicos e blogs especializados.

GPUBreach: o RowHammer invade a memória da GPU e pode assumir o controle do seu sistema
Imagem gerada com IA.

No terreno gráfico, a memória GDDR6 — usada por muitas GPUs modernas — introduz novos vetores e desafios. Pesquisas recentes batizadas com nomes como GPUHammer, GPUBreach, GDDRHammer e GeForge descrevem como um atacante pode induzir bit-flips na memória da GPU e usá-los contra estruturas críticas do sistema gráfico, como as tabelas de páginas da própria GPU. Um passo para além dos ataques anteriores: não se limita a degradar resultados de computação, mas pode tornar-se uma alavanca para acesso arbitrário a memória e, em casos extremos, escalado de privilégios a nível de CPU.

O trabalho que se conhece como GPUBreach é especialmente marcante porque demonstra que, mediante a alteração de entradas nas tabelas de páginas da GPU (PTEs), um processo sem privilégios pode obter capacidades de leitura e escrita arbitrárias sobre a memória da GPU. O preocupante é a cadeia de exploração que pode ser seguida: com esse acesso se manipulam estruturas que a GPU usa para emitir acessos Direct Memory Access (DMA) para a memória do CPU, e se nesse ponto existem vulnerabilidades de segurança no driver do fabricante - por exemplo erros de segurança no driver do kernel da NVIDIA - a exploração pode culminar elevando privilégios até obter um shell com direitos de administração.

Uma peça chave para mitigar ataques DMA é o IOMMU, um componente de hardware projetado para isolar os acessos diretos dos periféricos à memória do sistema. No entanto, os pesquisadores mostram que não basta ter o IOMMU habilitado: ao corromper estados considerados de confiança dentro dos buffers que o IOMMU autoriza, é possível induzir escrituras fora dos limites no kernel que esquivam essas proteções e abrem a porta ao comprometimento completo do sistema. Isto tem implicações diretas para infraestrutura na nuvem com GPUs compartilhadas, implantaçãos multi-tenant orientados para IA e centros de cálculo de alto desempenho.

As variantes GDDRHammer e GeForge trabalham sobre ideias afins —manipular a tradução de endereços da GPU via fluxos de RowHammer em GDDR6 — e também conseguem converter esses flips em acesso de leitura/escrita ao espaço de memória do anfitrião. Em termos técnicos diferem em que nível da árvore de páginas exploram (por exemplo, último nível de PTE versus outro nível de diretório), mas o objetivo é coincidente: sequestrar a tradução para ampliar o alcance do código malicioso que corre na GPU.

Além do risco de controle de sistema, outro impacto já demonstrado tem a ver com modelos de aprendizagem automática: ataques baseados nestas falhas podem degradar fortemente a precisão de modelos que são executados em GPU, com efeitos que em experimentos chegaram a reduzir a precisão de inferências de forma notável. Também foi observado o risco de exposição de material confidencial, como chaves criptográficas usadas em livrarias da própria plataforma de GPU.

O que se pode fazer hoje? Como medida temporária, ativar a correção de erros por hardware (ECC) em GPUs que o suporte reduz a probabilidade de que se traduzem em corrupção explorável, mas não é uma solução infalível. Existem padrões de ataque que induzem múltiplos flips simultâneos - além da capacidade corretora de ECC - e, como mostraram pesquisas prévias sobre tolerância de ECC, a correção pode resultar insuficiente ou gerar corrupção silenciosa em cenários concretos. Em GPUs de mesa ou portáteis onde o ECC não está disponível, as opções são ainda mais limitadas.

A resposta a longo prazo passa por várias vias: os fabricantes devem aplicar adesivos a drivers e firmwares, endurecer a validação e os limites de buffers geridos pelo kernel, e colaborar com a comunidade acadêmica para identificar e mitigar modos de ataque novos. Os operadores de nuvem e os que gerem clusters para cargas de IA terão de repensar políticas de partilha de hardware, aplicar controles mais rigorosos sobre código acelerado por GPU e considerar a segmentação física ou a dedicação de recursos para cargas de confiança. A NVIDIA, por sua vez, mantém um centro de segurança onde publica avisos e recomendações; é importante seguir as comunicações oficiais em seu portal de segurança.

GPUBreach: o RowHammer invade a memória da GPU e pode assumir o controle do seu sistema
Imagem gerada com IA.

Esta onda de resultados lembra que a superfície de ataque evolui à medida que a tecnologia se especializa e se escala. O que começou como uma curiosidade em DRAM está se tornando uma ameaça prática para infraestrutura crítica que dependem de aceleração por GPU. A interação entre características de hardware (como GDDR6 e IOMMU), software complexo (drivers de kernel) e modelos de uso compartilhado na nuvem cria vetores de exploração que exigem uma resposta coordenada entre academia, indústria e operadores.

Se você quer aprofundar o fenômeno RowHammer e revisar trabalhos acadêmicos e preprints relacionados, uma referência útil para explorar artigos e repositórios é o buscador de preprints de preprints arXiv, e para seguir os grupos de pesquisa é recomendável consultar os portais de departamentos como o da Universidade de Toronto, onde se originam e publicam muitas dessas contribuições ( University of Toronto — CS).

Em resumo, GPUBreach e as técnicas afins supõem um lembrete contundente: a segurança do hardware importa tanto quanto a do software. A indústria deve acelerar adesivos e atenuações, e os responsáveis por sistemas devem rever práticas de implantação e isolamento para reduzir o risco em ambientes onde as GPUs são recursos críticos.

Cobertura

Relacionadas

Mas notícias do mesmo assunto.