Como espionar uma rede neural

O ataque Whisper Leak permite que um invasor deduza o tema da conversa com um assistente de IA sem precisar descriptografar o tráfego. Estudamos como isso ocorre e o que você pode fazer para proteger seus bate-papos com IA.

As pessoas confiam às redes neurais seus assuntos mais valiosos e até mesmo íntimos: conferir diagnósticos médicos, buscar conselhos amorosos ou consultar a IA em vez de um psicoterapeuta. Já são conhecidos os casos de planejamento de suicídio, ataques no mundo real e outros atos perigosos que foram facilitados por LLMs.  Por essa razão, cada vez mais, conversas privadas entre humanos e IA têm despertado interesse crescente de governos, empresas e pessoas curiosas.

Portanto, não faltarão pessoas dispostas a implementar o ataque Whisper Leak por aí. Afinal, ele é capaz de identificar o tema geral da conversa com uma rede neural sem interferir no tráfego, apenas observando os padrões de tempo no envio e recebimento de pacotes criptografados entre a rede e o servidor de IA. No entanto, ainda é possível manter suas conversas privadas; saiba mais sobre isso abaixo…

Como funciona o ataque Whisper Leak

Todos os modelos de linguagem geram respostas progressivamente. Isso parece, aos olhos do usuário, que uma pessoa do outro lado está digitando palavra por palavra. No entanto, os modelos de linguagem não usam caracteres ou palavras isoladas, mas tokens que são unidades semânticas processadas pela IA, e a resposta surge conforme esses tokens são gerados. Esse sistema de saída é conhecido como “streaming” e é possível deduzir o tópico da conversa medindo as características do fluxo. Anteriormente, falamos sobre um esforço de pesquisa que conseguiu reconstruir com bastante precisão o texto de uma conversa com um bot a partir da análise do comprimento de cada token enviado.

Pesquisadores da Microsoft analisaram em profundidade como 30 modelos de IA respondem a 11.800 prompts. Foram feitas centenas de solicitações, como variações da pergunta “É legal lavar dinheiro?”, além de outras questões aleatórias que cobriram tópicos totalmente diferentes.

Ao comparar o atraso na resposta do servidor, o tamanho do pacote e o número total de pacotes, os pesquisadores conseguiram separar as solicitações “perigosas” das “normais” com bastante precisão. Também usaram redes neurais para a análise, mesmo não sendo LLMs. Dependendo do modelo estudado, a precisão na identificação de tópicos “perigosos” variou entre 71% e 100%. Além disso, em 19 dos 30 modelos, a precisão foi superior a 97%.

Os pesquisadores decidiram conduzir um experimento ainda mais complexo e realista. Eles testaram um conjunto de dados de 10.000 conversas aleatórias, sendo que apenas uma se concentrou no tópico escolhido.

Os resultados foram mais diversos, mas a simulação do ataque ainda obteve bastante sucesso. Nos modelos Deepseek-r1, Groq-llama-4, gpt-4o-mini, xai-grok-2, -3, Mistral-small e Mistral-large, os pesquisadores conseguiram detectar o sinal no ruído em 50% dos experimentos com zero falso positivos.

Para Alibaba-Qwen2.5, Lambda-llama-3.1, gpt-4.1, gpt-o1-mini, Groq-llama-4 e Deepseek-v3-chat, a taxa de sucesso da detecção caiu para 20%, mesmo não apresentando falsos positivos. Enquanto isso, para Gemini 2.5 pro, Anthropic-Claude-3-haiku e gpt-4o-mini, a detecção de conversas “perigosas” nos servidores da Microsoft só foi bem-sucedida em 5% dos casos. A taxa de sucesso para outros modelos testados foi ainda menor.

É importante notar que os resultados variam não só conforme o modelo de IA, mas também conforme a configuração do servidor em execução. Portanto, o mesmo modelo OpenAI pode mostrar resultados diferentes na infraestrutura da Microsoft e nos próprios servidores OpenAI. E isso vale para todos os modelos de código aberto.

Efeitos práticos: o que é necessário para o Whisper Leak funcionar?

Se um invasor bem equipado acessar o tráfego de rede das vítimas, como ao controlar um roteador em um ISP ou em uma organização, poderá identificar grande parte das conversas sobre tópicos de interesse apenas medindo o tráfego enviado aos servidores do assistente de IA, mantendo uma taxa de erro bem baixa. No entanto, isso não significa que seja possível detectar automaticamente qualquer tópico de conversação. Primeiro, o invasor deve treinar seus sistemas de detecção em temas específicos, o modelo só os identificará.

Essa ameaça não pode ser descartada como algo apenas teórico. As autoridades legais podem, por exemplo, monitorar consultas relacionadas à fabricação de armas ou drogas, e empresas podem monitorar pesquisas de emprego de seus funcionários. No entanto, não é viável usar essa tecnologia para o monitoramento em massa de centenas ou milhares de tópicos, pois ela consome muitos recursos.

Alguns serviços famosos de IA alteraram os algoritmos de seus servidores em resposta à pesquisa, com intuito de dificultar a execução desse ataque.

Como se proteger do Whisper Leak

A responsabilidade pela defesa contra esse ataque é majoritariamente dos fornecedores de modelos de IA. Eles precisam gerar textos de uma maneira que não seja possível distinguir seu tópico dos padrões de geração de token. Após a pesquisa da Microsoft, empresas como OpenAI, Mistral, Microsoft Azure e xAI relataram que estavam enfrentando a ameaça. Começaram a incluir um leve preenchimento invisível nos pacotes enviados pela rede neural, o que desestabiliza os algoritmos do Whisper Leak. Curiosamente, os modelos da Anthropic eram naturalmente menos suscetíveis a esse ataque desde o início.

Caso esteja usando um modelo e servidores vulneráveis ao Whisper Leak, é possível selecionar um provedor menos vulnerável ou adotar precauções adicionais. As medidas a seguir também são relevantes para quem deseja se proteger contra futuros ataques desse tipo:

  • Use modelos de IA locais para tópicos altamente confidenciais, confira nosso guia.
  • Configure o modelo para usar a saída sem fluxo sempre que possível, para que a resposta seja entregue de uma só vez, e não palavra por palavra.
  • Evite discutir tópicos confidenciais com chatbots quando estiver conectado a redes não confiáveis.
  • Use um provedor de VPN robusto e confiável para ter uma conexão mais segura.
  • Lembre-se de que seu próprio computador é o ponto mais provável de vazamento de qualquer informação de bate-papo. Portanto, é essencial protegê-lo contra spywares com uma solução de segurança confiável e que seja executada em seu computador e em todos os smartphones.

Aqui estão mais alguns artigos que detalham outros riscos ligados ao uso de IA e orientam como configurar ferramentas de IA corretamente:

Dicas

O Infostealer entrou no chat

Uma nova onda de ataques ClickFix que dissemina um infostealer para macOS está publicando guias de usuário maliciosos no site oficial do ChatGPT, explorando o recurso de compartilhamento de conversas do chatbot.