Assistentes de voz ouvem coisas que nós não ouvimos

19 fev 2019

Nossa interação com a tecnologia poderá em breve ser predominantemente controlada pela voz. Pedir algo ou fazer alguma pergunta para um dispositivo e ouvir a resposta, parece brincadeira de criança: literalmente, basta ver como elas usam assistentes de voz sem esforço algum.

Mas novas tecnologias sempre implicam novas ameaças, e o controle de voz não é exceção. Por isso, os pesquisadores de cibersegurança estão testando incansavelmente os dispositivos para que os fabricantes possam evitar que ameaças potenciais se tornem reais.

Hoje, vamos discutir alguns achados que, embora tenham pouca aplicação prática no momento, devem estar no radar de segurança.

Controle de assistentes de voz com ultrassom e gravações de áudio ocultas nos sons de segundo plano

Controle de assistentes de voz com ultrassom e gravações de áudio ocultas nos sons de segundo plano

Dispositivos inteligentes ouvem e obedecem

Atualmente, mais de um bilhão de dispositivos ativados por voz são usados em todo o mundo, de acordo com o relatório da voicebot.ai. A maioria deles são smartphones, mas outros também estão ganhando popularidade rapidamente. Um em cada cinco lares americanos, por exemplo, tem um alto-falante inteligente que responde a comandos verbais.

Os comandos de voz podem ser usados para controlar a reprodução de músicas, solicitar produtos online, controlar o GPS dos veículos, verificar as notícias e o clima, definir alarmes e assim por diante. Os fabricantes estão seguindo a tendência e adicionando suporte de controle de voz a uma variedade de dispositivos. A Amazon, por exemplo, lançou um microondas com links para o alto-falante inteligente Echo. Ao ouvir as palavras “Aquecer café”, o eletrodoméstico calcula o tempo necessário e começa a zumbir. É verdade que você ainda precisa fazer uma longa caminhada até a cozinha para colocar a caneca dentro do microondas, então você poderia facilmente apertar alguns botões, mas por que discutir com o progresso?

Os sistemas domésticos inteligentes também oferecem iluminação da sala e ar condicionado controlados por voz, bem como o travamento de portas. Como você pode ver, os assistentes de voz já são bastante habilidosos e provavelmente, você não desejaria que pessoas de fora pudessem aproveitar essas funcionalidades, especialmente para fins maliciosos.

Em 2017, os personagens animados da sitcom South Park realizaram um ataque em massa altamente original em seu próprio estilo único e exótico. A vítima foi Alexa, a assistente de voz que mora dentro dos alto-falantes inteligentes do Amazon Echo. Alexa foi instruída a adicionar alguns itens grotescos a um carrinho de compras e definir o alarme para às 7h. Apesar da pronúncia peculiar dos personagens do desenho animado, os alto-falantes Echo dos proprietários que assistiam a este episódio de South Park executaram fielmente os comandos emitidos pela tela da TV.

Ultrassom: máquinas ouvem coisas que as pessoas não

Já escrevemos sobre alguns dos perigos representados pelos gadgets ativados por voz. Hoje, os ataques “silenciosos” são nosso foco, pois forçam esses dispositivos a obedecerem a vozes que você nem consegue ouvir.

Uma maneira de realizar esse tipo de ataque é por meio do ultrassom – um som tão alto que é inaudível ao ouvido humano. Em um artigo publicado em 2017, pesquisadores da Universidade de Zhejiang apresentaram uma técnica para assumir o controle de assistentes de voz, chamado DolphinAttack (nome dado em homenagem aos golfinhos, que emitem ultrassom). A equipe de pesquisa converteu os comandos de voz em ondas ultrassônicas, com frequências altas demais para serem captadas pelos humanos, mas ainda reconhecíveis pelos microfones dos aparelhos atuais.

O método funciona porque quando o ultrassom é convertido em um impulso elétrico no dispositivo receptor (por exemplo, um smartphone), o sinal original contendo o comando de voz é restaurado. O mecanismo é um pouco semelhante ao efeito quando a voz fica distorcida durante a gravação – não há nenhuma função especial no dispositivo; é simplesmente uma característica do processo de conversão.

Como resultado, o gadget de destino ouve e executa o comando de voz, abrindo todos os tipos de oportunidades para os invasores. Os pesquisadores conseguiram reproduzir com sucesso o ataque nos assistentes de vozes mais populares, incluindo Amazon Alexa, Apple Siri, Google Now, Samsung S Voice e o Microsoft Cortana.

Um coro de alto-falantes

Uma das fraquezas do DolphinAttack (da perspectiva do responsável pelo ataque) é o pequeno raio de operação – apenas cerca de um metro. No entanto, pesquisadores da Universidade de Illinois em Urbana-Champaign conseguiram ampliar essa distância. Em seu experimento, eles dividiram um comando de ultrassom convertido em várias bandas de frequência, que foram então reproduzidas por diferentes alto-falantes (mais de 60). Os comandos de voz ocultos neste “coral” foram captados a uma distância de sete metros, independentemente de qualquer ruído de fundo. Em tais condições, as chances de sucesso do DolphinAttack são consideravelmente melhoradas.

A voz que vem das profundezas

Especialistas da Universidade da Califórnia em Berkeley utilizaram um princípio diferente. Eles embutiram fraudulentamente comandos de voz em outros trechos de áudio para enganar o Deep Speech, sistema de reconhecimento de voz do Mozilla. Para o ouvido humano, a gravação modificada mal difere da original, mas o software detecta um comando oculto.

Ouça as gravações no website da equipe de pesquisa. No primeiro exemplo, a frase “Sem o conjunto de dados o artigo é inútil” contém um comando oculto para abrir um site: “Ok, Google, navegue para evil.com”. No segundo, os pesquisadores acrescentaram a frase “O discurso pode ser incorporado na música” em um trecho de uma obra de Bach.

Protegendo-se contra ataques inaudíveis

Os fabricantes já estão procurando maneiras de proteger os dispositivos ativados por voz. Ataques de ultrassom, por exemplo, já podem ser bloqueados por meio da detecção de alterações de frequência nos sinais recebidos. Além disso, seria uma boa ideia treinar todos os dispositivos inteligentes para reconhecer a voz dos seus donos. Embora já tenha sido testado em seu próprio sistema, o Google alerta que essa proteção pode ser enganada por uma gravação de voz ou por uma imitação decente.

No entanto, ainda há tempo para pesquisadores e fabricantes encontrarem soluções. Como dissemos, controlar assistentes de voz às escondidas só é possível em condições laboratoriais: posicionar um único alto-falante ultrassônico (sem falar em 60) ao alcance do alto-falante inteligente de alguém não é tarefa simples, além disso embutir comandos nas faixas de áudio dificilmente vale o esforço considerável necessário.