Não acredite em tudo o que ouve: deepfakes de voz

Deepfakes de áudio capazes de imitar a voz de qualquer pessoa já estão sendo usados para golpes de vários milhões de dólares. Como as deepfakes são criadas e como se proteger para não ser a próxima vítima?

Você já se perguntou como sabemos com quem estamos falando ao telefone? Claro que é mais do que apenas o nome exibido na tela. Se ouvirmos uma voz desconhecida ao vinda de um número salvo, sabemos imediatamente que algo está errado. Para ter certeza de com quem realmente estamos falando, inconscientemente observamos o timbre, a maneira e a entonação da fala. Mas quão confiável é a nossa própria audição na era digital da inteligência artificial? Como já noticiado amplamente, não dá mais para confiar em tudo o que ouvimos  porque as vozes podem ser falsas: deepfake.

Socorro, estou em apuros

Na primavera de 2023, golpistas no Arizona tentaram extorquir dinheiro de uma mulher via telefone. Ela ouviu a voz da sua filha de 15 anos implorando por ajuda antes que um homem desconhecido pegasse o telefone e exigisse um resgate, tudo isso enquanto ouvia os gritos da filha ao fundo. A mãe teve certeza de que a voz era realmente da filha. Felizmente, ela descobriu rapidamente que estava tudo bem com a filha, percebendo que tinha sido vítima de fraudadores.

Não é possíver ter 100% de certeza de que os invasores usaram um deepfake para imitar a voz do adolescente. Talvez o golpe tenha sido usando um método tradicional: a má qualidade da chamada, o inesperado da situação, o estresse e a imaginação da mãe a faz pensar que ouviu algo que não ouviu. Mas mesmo se as tecnologias de rede neural não tenham sido usadas nesse caso, deepfakes podem e de fato ocorrem, e à medida que seu desenvolvimento continua e se tornam cada vez mais convincentes e perigosos. Para combater a exploração da tecnologia deepfake por criminosos, precisamos entender como isso funciona.

O que são deepfakes?

A inteligência artificial Deepfake ( “deep learning” + “fake” ) tem crescido em ritmo acelerado nos últimos anos. O aprendizado de máquina pode ser usado para criar falsificações convincentes de imagens, vídeo ou conteúdo de áudio. Por exemplo, as redes neurais podem ser usadas em fotos e vídeos para substituir o rosto de uma pessoa por outro, preservando as expressões faciais e a iluminação. Embora inicialmente essas falsificações fossem de baixa qualidade e fáceis de detectar, à medida que os algoritmos se desenvolveram, os resultados se tornaram tão convincentes que agora é difícil distingui-los do real. Em 2022, o primeiro programa de TV de deepfake do mundo foi lançado na Rússia, onde deepfakes de Jason Statham, Margot Robbie, Keanu Reeves e Robert Pattinson interpretam os personagens principais.

Versões deepfake de estrelas de Hollywood na série de TV russa PMJason. (Fonte)

Versões deepfake de estrelas de Hollywood na série de TV russa PMJason.

Conversão de voz

Mas hoje nosso foco está na tecnologia usada para criar deepfakes de voz. Isso também é conhecido como conversão de voz (ou “clonagem de voz” se for criada uma cópia digital completa). A conversão de voz é baseada em codificadores automáticos, um tipo de rede neural que comprime os dados de entrada (parte do codificador) em uma representação interna compacta e, então, aprende a descompactá-los dessa representação (parte do decodificador) para restaurar o dados originais. Desta forma, o modelo aprende a apresentar os dados em um formato compactado enquanto destaca as informações mais importantes.

Esquema do codificador automático. ( Fonte )

Esquema do codificador automático. ( Fonte )

Para criar deepfakes de voz, duas gravações de áudio são alimentadas no modelo, com a voz da segunda gravação sendo convertida para a primeira. O codificador de conteúdo é usado para determinar o que foi dito a partir da primeira gravação, e o codificador de alto-falante é usado para extrair as principais características da voz da segunda gravação, ou seja, como a fala da segunda pessoa. As representações comprimidas do que deve ser dito e como é dito são combinadas, e o resultado é gerado usando o decodificador. Assim, o que é dito na primeira gravação é dublado pela pessoa da segunda gravação.

O processo de geração de voz em deepfake. (Fonte)

O processo de geração de voz em deepfake. (Fonte)

 

Há outras abordagens que usam codificadores automáticos, por exemplo, com redes adversas generativas (GAN) ou modelos de difusão . A pesquisa sobre como criar deepfakes é apoiada em particular pela indústria cinematográfica. Imagine só: com as deepfakes de áudio e vídeo, é possível substituir os rostos de atores em filmes e programas de TV, e dublar filmes por expressões faciais sincronizadas em qualquer idioma.

Como isso é feito

Enquanto pesquisávamos as tecnologias deepfake, nos perguntamos o quão difícil poderia ser criar um deepfake da própria voz. Acontece que há muitas ferramentas open source gratuitas para fazer conversão de voz, mas não é tão fácil obter um resultado de alta qualidade com elas. É preciso experiência em programação em Python e boas habilidades de processamento, e mesmo assim a qualidade está longe de ser ideal. Além de fontes open source, também há soluções proprietárias e pagas disponíveis.

Por exemplo, no início de 2023, a Microsoft anunciou um algoritmo que poderia reproduzir uma voz humana com base em um exemplo de áudio com apenas três segundos! Esse modelo também funciona com vários idiomas, para que você possa até se ouvir falando um idioma estrangeiro. Tudo isso parece promissor, mas até agora tudo está apenas na fase de pesquisa. Mas a plataforma ElevenLabs permite aos usuários gerar deepfakes de voz sem nenhum esforço: basta carregar uma gravação de áudio da voz e das palavras a serem ditas, e pronto. É claro que, assim que a notícia se espalhou, as pessoas começaram a brincar com essa tecnologia de todas as maneiras possíveis.

A batalha de Hermione e um banco extremamente confiável

Em total conformidade com a lei de Godwin, Emma Watson foi obrigada a ler Mein Kampf, e um usuário usou a tecnologia ElevenLabs para “hackear” sua própria conta bancária. Parece assustador? Para nós, muito! Especialmente quando você adiciona os relatos horrorizantes sobre fraudadores que coletam amostras de vozes por telefone fazendo com que as pessoas digam “sim” ou “confirmem” enquanto fingem ser um banco, agência governamental ou serviço de pesquisa, e depois roubam dinheiro usando a autorização de voz.

Mas na realidade as coisas não são tão ruins o quanto parecem. Em primeiro lugar, leva cerca de cinco minutos de gravações de áudio para criar uma voz artificial no ElevenLabs, então um simples “sim” não é suficiente. Em segundo, os bancos estão cientes desses golpes, então a voz só pode ser usada para iniciar determinadas operações não relacionadas com a transferência de fundos (por exemplo, para verificar o saldo da conta). Portanto, o dinheiro não pode ser roubado dessa maneira.

Aliás, o ElevenLabs reagiu ao problema rapidamente, reescrevendo as regras do serviço, proibindo usuários gratuitos (ou seja, anônimos) de criar deepfakes com base em suas próprias vozes enviadas e bloqueando contas que têm reclamações sobre “conteúdo ofensivo”.

Embora essas medidas possam ser úteis,  ainda não resolvem o problema do uso de deepfakes de voz para fins suspeitos.

Outros usos de deepfakes em fraudes

A tecnologia deepfake em si é inofensiva, mas nas mãos dos criminosos pode se tornar uma ferramenta perigosa, com muitas oportunidades de engano, difamação ou desinformação. Felizmente, não houve nenhum caso em massa de golpes envolvendo alteração de voz, mas houve vários casos de projeção envolvendo deepfakes de voz.

Em 2019, os fraudadores usaram essa tecnologia para enganar uma empresa de energia sediada no Reino Unido. Em uma conversa telefônica, o criminoso fingiu ser o executivo-chefe da controladora alemã da empresa e solicitou uma transferência urgente de 220 mil euros para a conta de uma determinada empresa fornecedora. Depois do pagamento ser feito, o estelionatário ligou mais duas vezes, a primeira para deixar a equipe do escritório do Reino Unido à vontade e reportar que a empresa-mãe já havia enviado um reembolso e a segunda vez para solicitar outra transferência. Todas as três vezes, o CEO do Reino Unido tinha absoluta certeza de que estava falando com seu chefe, porque reconheceu seu sotaque alemão, seu tom e maneira de falar. A segunda transferência não foi enviada só porque o criminoso errou e ligou de um número austríaco em vez de alemão, o que deixou o CEO do Reino Unido desconfiado.

Um ano depois, em 2020, criminosos usaram deepfakes para roubar até 35 milhões de dólares de uma empresa japonesa não identificada (o nome da empresa e o valor total de bens roubados não foram divulgados pela investigação).

Não se sabe quais soluções (de código aberto, pagas ou até mesmo proprietárias) os fraudadores usaram para gerar vozes falsas, mas em ambos os casos acima, as empresas claramente sofreram alto prejuízo com as fraudes de deepfake.

O que vem por aí?

As opiniões divergem sobre o futuro dos deepfakes. Atualmente, a maior parte dessa tecnologia está nas mãos de grandes corporações, e sua disponibilidade ao público é limitada. Mas, como a história de modelos generativos muito mais populares como DALL-E, Midjourney e Stable Diffusion mostra, e ainda mais com grandes modelos de linguagem (ChatGPT, por exemplo), tecnologias semelhantes podem muito bem aparecer no domínio público no futuro previsível. Isso foi confirmado por um vazamento recente de correspondência interna do Google, na qual representantes da gigante da Internet expressam o medo de perder a corrida da IA para soluções open source. Isso obviamente resultará em um aumento no uso de deepfakes de voz, inclusive para fraude.

O passo mais promissor no desenvolvimento de deepfakes é a geração em tempo real, o que garantirá o crescimento explosivo de deepfakes (e fraudes baseadas nisso). Já imaginou uma videochamada com alguém cujo rosto e voz são completamente falsos? No entanto, esse nível de processamento de dados requer enormes recursos disponíveis apenas para grandes corporações, então as melhores tecnologias permanecerão privadas e os fraudadores não serão capazes de acompanhar os profissionais. A barra de alta qualidade também ajudará os usuários a aprender a identificar facilmente as falsificações.

Como se proteger

Agora, de volta à nossa primeira pergunta: podemos confiar nas vozes que ouvimos (excluindo as vozes em nossa cabeça)? Bem, provavelmente seria exagerado em ficar paranoico o tempo todo e começar a inventar palavras em código secretas para usar com amigos e familiares para evitar cair nessa. Mas em situações mais graves, essa paranoia pode ser necessária. Se tudo se desenvolver com base no cenário pessimista, a tecnologia deepfake nas mãos de golpistas pode se transformar em uma arma formidável no futuro, mas ainda há tempo de se preparar e construir métodos confiáveis de proteção contra a falsificação: já há muita pesquisa sobre deepfakes, e grandes empresas estão desenvolvendo soluções de segurança. Na verdade, já comentamos detalhadamente algumas maneiras de combater as deepfakes de vídeo aqui.

Por enquanto, a proteção contra falsificações de IA está apenas começando, então é importante ter em mente que as deepfakes são apenas mais um tipo de engenharia social avançada. O risco de se deparar com fraudes como essa é pequeno, mas ainda está lá, então vale a pena conhecer e ter em mente. Se você receber uma chamada estranha, preste atenção na qualidade do som. É um tom monótono não natural, é ininteligível ou há ruídos estranhos? Sempre verifique as informações por meio de outros canais e lembre-se de que pegar de surpresa e induzir ao pânico são as principais armas dos fraudadores.

Dicas