Escutas telefônicas não usuais em smartphones

Em um novo estudo, especialistas em segurança exploram a espionagem de conversas telefônicas por meio de um bug presente em quase todos os smartphones. Qual é o tamanho do perigo?

No final de dezembro de 2022, uma equipe de cientistas de várias universidades dos Estados Unidos publicou um artigo sobre escutas telefônicas. O método de espionagem analisado é bastante incomum: palavras ditas pela pessoa com quem você está falando em seu smartphone reproduzidas pelo alto-falante do telefone podem ser captadas por um sensor embutido do aparelho conhecido como acelerômetro. À primeira vista, essa abordagem não parece fazer sentido: por que não apenas interceptar o próprio sinal de áudio ou os dados? O fato é que os sistemas operacionais dos smartphones atuais fazem um excelente trabalho na proteção de conversas telefônicas e, de qualquer forma, a maioria dos aplicativos não tem permissão para gravar áudio durante as chamadas. Mas o acelerômetro é de livre acesso, o que abre novos métodos de vigilância. Este é um tipo de ataque de canal lateral, que até agora, felizmente, permanece completamente teórico. Mas, com o tempo, essa pesquisa pode tornar possível as escutas telefônicas fora do comum.

Funções do acelerômetro

Um acelerômetro é um sensor especial para medir a aceleração; juntamente com outro sensor, um giroscópio, ajuda a detectar mudanças na posição de um telefone. Os acelerômetros foram incorporados a todos os smartphones há mais de uma década. Entre outras coisas, eles giram a imagem na tela quando você movimenta o telefone. Às vezes, eles são usados ​​em jogos ou, digamos, em aplicativos de realidade aumentada, quando a imagem da câmera do telefone é sobreposta com alguns elementos virtuais. Os contadores de passos funcionam rastreando as vibrações do telefone enquanto o usuário caminha. E se você virar o telefone para silenciar uma chamada recebida ou tocar na tela para ativar o dispositivo, essas ações também são captadas pelo acelerômetro.

Como esse sensor padrão ainda “invisível” pode escutar suas conversas? Quando a outra pessoa fala, sua voz é tocada pelo alto-falante embutido, fazendo com que ele e o corpo do smartphone vibrem. Acontece que o acelerômetro é sensível o suficiente para detectar essas vibrações. Embora os pesquisadores saibam disso há algum tempo, o tamanho minúsculo dessas vibrações descartou uma escuta telefônica completa. Mas nos últimos anos, a situação mudou para melhor para pior: os smartphones agora possuem alto-falantes mais potentes. Por quê? Para melhorar o volume e a qualidade do som ao assistir a um vídeo, por exemplo. Um subproduto disso é uma melhor qualidade de som durante as chamadas telefônicas, pois usam o mesmo alto-falante. A equipe de cientistas dos EUA demonstra isso claramente no artigo:

Dados dos acelerômetros incorporados aos smartphones durante a reprodução da voz

Legenda: Espectrograma gerado ao reproduzir a palavra “zero” seis vezes: (a) – dos dados do acelerômetro do alto-falante Oneplus 3T (modelo anterior, sem alto-falantes estéreo); (b) – a partir dos dados do acelerômetro do alto-falante Oneplus 7T (modelo mais novo, com alto-falantes estéreo); (c) – dos dados do acelerômetro do alto-falante Oneplus 7T (modelo mais novo, com alto-falantes estéreo).

Os dados à esquerda pertencem a um smartphone relativamente antigo de 2016, não equipado com alto-falantes estéreo potentes. No centro e à direita está um espectrograma do acelerômetro de um aparelho mais moderno. Em cada caso, a palavra “zero” é tocada seis vezes pelo alto-falante. Com o smartphone antigo, o som mal se reflete nos dados de aceleração. Já no novo, surge um padrão que corresponde aproximadamente às palavras tocadas. O melhor resultado pode ser visto no gráfico à direita no qual o aparelho está no modo alto-falante. Mas mesmo durante uma conversa normal, com o telefone colado ao ouvido, há dados suficientes para análise. Ou seja, é possível notar que o acelerômetro funciona como um microfone!

Façamos uma pausa aqui para avaliar a dificuldade da tarefa que os pesquisadores se propuseram. O acelerômetro pode funcionar como um microfone, mas muito, muito pobre. Na situação hipotética, caso o usuário instale um malware que tente espionar conversas telefônicas ou que incorpore um módulo de escuta telefônica em um jogo popular. Como mencionado acima, nosso programa não tem permissão para gravar conversas diretamente, mas pode monitorar o estado do acelerômetro. O número de solicitações a este sensor é limitado e depende do modelo específico do sensor e do smartphone. Por exemplo, um dos telefones do estudo permitia 420 solicitações por segundo (medido em Hertz (Hz)), outro – 520Hz. A partir da versão 12, o sistema operacional Android introduziu um limite de 200 Hz. Conhecido como taxa de amostragem, isso limita a faixa de frequência da “gravação de som” resultante. É metade da taxa de amostragem na qual podemos receber dados do sensor. Isso significa que, na melhor das hipóteses, os pesquisadores tiveram acesso à faixa de frequência de 1 a 260 Hz.

A faixa de frequência para transmissão de voz é de cerca de 300 a 3400 Hz, mas o que o acelerômetro “ouve” não é uma voz: se tentarmos reproduzir essa “gravação”, obtemos um ruído murmurante que se assemelha apenas remotamente ao som original. Os pesquisadores usaram o aprendizado de máquina para analisar esses traços de voz. Eles criaram um programa que coleta amostras conhecidas da voz humana e as compara com os dados captados do acelerador. Esse treinamento permite ainda que uma gravação de voz de um conteúdo desconhecido seja decifrada com uma certa margem de erro.

Espionagem

Para pesquisadores de métodos de escuta telefônica, isso é muito familiar. Os autores do novo artigo referem-se a uma série de predecessores que mostraram como obter dados de voz usando os objetos aparentemente mais improváveis. Eis um exemplo real desta técnica de espionagem: em um prédio próximo, os invasores direcionam um raio laser invisível para a janela da sala onde ocorre uma conversa que desejam escutar. As ondas sonoras das vozes fazem com que o vidro da janela vibre levemente, e essa vibração é rastreável no feixe de laser refletido. E esses dados são suficientes para restaurar o conteúdo de uma conversa privada. Em 2020, cientistas de Israel mostraram como a fala pode ser reconstruída a partir das vibrações de uma lâmpada comum. As ondas sonoras causam pequenas alterações em seu brilho, que podem ser detectadas a uma distância de até 25 metros. A espionagem baseada em acelerômetro é muito semelhante a esses truques de espionagem, mas com uma diferença importante: o “bug” já está embutido no dispositivo a ser grampeado.

Sim, mas até que ponto o conteúdo de uma conversa pode ser recuperado a partir dos dados do acelerômetro? Embora o novo artigo melhore seriamente a qualidade das escutas telefônicas, o método ainda não pode ser considerado confiável. Em 92% dos casos, os dados do acelerômetro permitiram distinguir uma voz da outra. Em 99% dos casos, foi possível determinar corretamente o gênero. A fala real foi reconhecida com uma precisão de 56% – metade das palavras não pôde ser reconstruída. E o conjunto de dados usado no teste era extremamente limitado: apenas três pessoas dizendo um número várias vezes seguidas.

O que o artigo não trouxe foi a capacidade de analisar a fala do usuário do smartphone. Se ouvirmos apenas o som do alto-falante, na melhor das hipóteses teremos apenas metade da conversa. Quando pressionamos o telefone contra o ouvido, as vibrações de nossas falas também devem ser sentidas pelo acelerômetro, mas a qualidade tende a ser muito pior do que as vibrações do alto-falante. Isso ainda precisa ser estudado com mais detalhes em novas pesquisas.

Futuro incerto

Felizmente, os cientistas não estavam procurando criar um dispositivo de escuta telefônica funcional imediatamente. Eles estavam apenas testando novos métodos de invasão de privacidade que um dia podem se tornar relevantes. Esses estudos permitem que fabricantes de dispositivos e desenvolvedores de software desenvolvam proteção proativamente contra ameaças teóricas. Aliás, o limite de taxa de amostragem de 200 Hz introduzido no Android 12 não ajuda muito: a precisão do reconhecimento em experimentos reais diminuiu, mas não muito. Uma interferência muito maior vem naturalmente do usuário do smartphone durante uma conversa: sua voz, movimentos das mãos, movimentação geral. Os pesquisadores não conseguiram filtrar de forma confiável essas vibrações do sinal útil.

O aspecto mais importante do estudo foi o uso do sensor embutido no smartphone: todos os métodos anteriores dependiam de várias ferramentas adicionais, mas aqui temos uma espécie de espionagem pronta para uso. Apesar dos resultados práticos serem modestos, este interessante estudo mostra como um dispositivo tão complexo como um smartphone está cheio de possíveis violações de dados. Em outros conteúdos relacionados, escrevemos recentemente sobre como os sinais dos módulos Wi-Fi em telefones, computadores e outros dispositivos involuntariamente revelam sua localização, como os robôs aspiradores de pó espionam seus proprietários e como as câmeras IP gostam de espiar onde não deveriam.

E, embora seja improvável que tais métodos de vigilância ameacem o usuário comum, seria bom se a tecnologia do futuro estivesse preparada para combater a todos os riscos de espionagem, por menor que seja qualquer uma delas. Mas como esses casos envolvem a instalação de malwares em seu smartphone, você sempre deve ter formas de rastreá-los e bloqueá-los.

Dicas