{"id":21205,"date":"2023-06-02T07:23:42","date_gmt":"2023-06-02T10:23:42","guid":{"rendered":"https:\/\/www.kaspersky.com.br\/blog\/?p=21205"},"modified":"2023-06-02T07:23:42","modified_gmt":"2023-06-02T10:23:42","slug":"neural-networks-data-leaks","status":"publish","type":"post","link":"https:\/\/www.kaspersky.com.br\/blog\/neural-networks-data-leaks\/21205\/","title":{"rendered":"Como a IA pode vazar seus dados pessoais"},"content":{"rendered":"<h2>Suas redes (neurais) est\u00e3o vazando dados<\/h2>\n<p>Pesquisadores de universidades nos Estados Unidos e na Su\u00ed\u00e7a, em colabora\u00e7\u00e3o com o Google e a DeepMind, publicaram um <a href=\"https:\/\/arxiv.org\/pdf\/2301.13188.pdf\" target=\"_blank\" rel=\"nofollow noopener\">artigo<\/a> mostrando como dados podem vazar de sistemas de gera\u00e7\u00e3o de imagens que usam os algoritmos de aprendizado de m\u00e1quina (<em>machine-learning<\/em>) <a href=\"https:\/\/openai.com\/blog\/dall-e\/\" target=\"_blank\" rel=\"nofollow noopener\">DALL-E<\/a>, <a href=\"https:\/\/imagen.research.google\/\" target=\"_blank\" rel=\"nofollow noopener\">Imagen<\/a> ou <a href=\"https:\/\/stablediffusionweb.com\/\" target=\"_blank\" rel=\"nofollow noopener\">Stable Diffusion<\/a>. Todos esses recursos funcionam da mesma maneira para o usu\u00e1rio: voc\u00ea digita uma consulta de texto espec\u00edfica, por exemplo, \u201cuma poltrona em forma de abacate\u201d, e obt\u00e9m uma imagem gerada como resposta.<\/p>\n<div id=\"attachment_21206\" style=\"width: 1034px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/94\/2023\/05\/08134622\/neural-networks-data-leaks-01.jpg\"><img decoding=\"async\" aria-describedby=\"caption-attachment-21206\" class=\"wp-image-21206 size-full\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/94\/2023\/05\/08134622\/neural-networks-data-leaks-01.jpg\" alt=\"Imagem gerada pela rede neural Dall-E\" width=\"1024\" height=\"1024\"><\/a><p id=\"caption-attachment-21206\" class=\"wp-caption-text\">Imagem gerada pela rede neural Dall-E. <a href=\"https:\/\/openai.com\/research\/dall-e\" target=\"_blank\" rel=\"nofollow noopener\">Fonte<\/a><\/p><\/div>\n<p>Esses sistemas s\u00e3o treinados em grande quantidade (dezenas ou centenas de milhares) de imagens com descri\u00e7\u00f5es pr\u00e9-preparadas. A ideia por tr\u00e1s dessas redes neurais \u00e9 que, ao consumir uma enorme quantidade de dados de treinamento, elas podem criar imagens novas e \u00fanicas. No entanto, a principal conclus\u00e3o do novo estudo \u00e9 que essas imagens nem sempre s\u00e3o t\u00e3o \u00fanicas. Em alguns casos, \u00e9 poss\u00edvel for\u00e7ar a rede neural a reproduzir quase exatamente uma imagem original usada anteriormente para treinamento. E isso significa que as redes neurais podem inadvertidamente revelar informa\u00e7\u00f5es privadas.<\/p>\n<div id=\"attachment_21207\" style=\"width: 1149px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/94\/2023\/05\/08135220\/neural-networks-data-leaks-02.jpg\"><img decoding=\"async\" aria-describedby=\"caption-attachment-21207\" class=\"wp-image-21207 size-full\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/94\/2023\/05\/08135220\/neural-networks-data-leaks-02.jpg\" alt=\"Imagem gerada pela rede neural Stable Diffusion (direita) e a imagem original do conjunto de treinamento (esquerda)\" width=\"1139\" height=\"799\"><\/a><p id=\"caption-attachment-21207\" class=\"wp-caption-text\">Imagem gerada pela rede neural Stable Diffusion (direita) e a imagem original do conjunto de treinamento (esquerda). <a href=\"https:\/\/arxiv.org\/pdf\/2301.13188.pdf\" target=\"_blank\" rel=\"nofollow noopener\">Fonte<\/a><\/p><\/div>\n<h2>Mais dados para a \u201cdivindade dos dados\u201d<\/h2>\n<p>O resultado de um sistema de aprendizado de m\u00e1quina em resposta a uma consulta pode parecer m\u00e1gica para um n\u00e3o especialista: \u201cuau! \u00e9 como um rob\u00f4 que sabe de tudo!\u201d Mas n\u00e3o h\u00e1 m\u00e1gica nenhuma, na verdade\u2026<\/p>\n<p>Todas as redes neurais funcionam mais ou menos da mesma maneira: \u00e9 criado um algoritmo, treinado em um conjunto de dados, por exemplo, uma s\u00e9rie de fotos de gatos e cachorros, com uma descri\u00e7\u00e3o do que exatamente \u00e9 representado em cada imagem. Ap\u00f3s a fase de treinamento, o algoritmo recebe uma nova imagem e deve descobrir se \u00e9 um gato ou um cachorro. A partir desse come\u00e7o t\u00edmido, os desenvolvedores de tais sistemas passaram para um cen\u00e1rio mais complexo: o algoritmo treinado com muitas fotos de gatos cria a imagem de um animal de estima\u00e7\u00e3o que nunca existiu sob demanda. Tais experimentos s\u00e3o realizados n\u00e3o s\u00f3 com imagens, mas tamb\u00e9m com texto, v\u00eddeo e at\u00e9 voz: j\u00e1 escrevemos sobre o problema com os <a href=\"https:\/\/www.kaspersky.com.br\/resource-center\/threats\/protect-yourself-from-deep-fake\" target=\"_blank\" rel=\"noopener\">deepfakes<\/a> (v\u00eddeos alterados digitalmente, principalmente de pol\u00edticos ou celebridades, que parecem dizer coisas que nunca fizeram).<\/p>\n<p>Para todas as redes neurais, o ponto de partida \u00e9 um conjunto de dados de treinamento: as redes neurais n\u00e3o podem inventar novas entidades do nada. Para criar a imagem de um gato, o algoritmo deve estudar milhares de fotografias ou desenhos reais desse animal. H\u00e1 muitos argumentos para manter esses conjuntos de dados confidenciais. Alguns deles s\u00e3o de dom\u00ednio p\u00fablico; outros conjuntos de dados s\u00e3o propriedade intelectual da empresa desenvolvedora, que investiu tempo e esfor\u00e7o consider\u00e1veis para conect\u00e1-los na esperan\u00e7a de obter uma vantagem competitiva. Outros ainda, por defini\u00e7\u00e3o, constituem informa\u00e7\u00f5es confidenciais. Por exemplo, h\u00e1 experimentos para usar redes neurais para diagnosticar doen\u00e7as com base em raios X e outros exames m\u00e9dicos. Isso significa que os dados de treinamento algor\u00edtmicos cont\u00eam os dados reais de sa\u00fade de pessoas reais, que, por motivos \u00f3bvios, n\u00e3o devem cair em m\u00e3os erradas.<\/p>\n<h2>TI difusa<\/h2>\n<p>Embora os algoritmos de aprendizagem de m\u00e1quina pare\u00e7am os mesmos para quem est\u00e1 de fora, eles s\u00e3o na verdade bem diferentes. No artigo cient\u00edfico, os pesquisadores prestam aten\u00e7\u00e3o especial aos <em>modelos de difus\u00e3o<\/em> de aprendizagem de m\u00e1quina. Eles funcionam assim: os dados de treinamento s\u00e3o distorcidos (imagens de pessoas, carros, casas etc.), adicionando-se ru\u00eddo. E a rede neural \u00e9 ent\u00e3o treinada para restaurar essas imagens ao seu estado original. Esse m\u00e9todo permite gerar imagens de qualidade satisfat\u00f3ria, mas uma desvantagem potencial (em compara\u00e7\u00e3o com algoritmos em <a href=\"https:\/\/en.wikipedia.org\/wiki\/Generative_adversarial_network\" target=\"_blank\" rel=\"nofollow noopener\">redes concorrentes generativas<\/a>, por exemplo) \u00e9 sua maior tend\u00eancia ao vazamento de dados.<\/p>\n<p>Os dados originais podem ser extra\u00eddos de pelo menos tr\u00eas maneiras diferentes: primeiro, usando consultas espec\u00edficas para for\u00e7ar a rede neural a produzir, n\u00e3o algo \u00fanico, gerado com base em milhares de imagens, mas uma imagem de fonte espec\u00edfica. Segundo, a imagem original pode ser reconstru\u00edda, mesmo se apenas uma parte dela estiver dispon\u00edvel. Terceiro, \u00e9 poss\u00edvel simplesmente estabelecer se uma imagem espec\u00edfica est\u00e1 ou n\u00e3o contida nos dados de treinamento.<\/p>\n<p>Muitas vezes, as redes neurais s\u00e3o\u2026 <em>pregui\u00e7osas<\/em> e, em vez de produzir uma nova imagem, elas produzem do conjunto de treinamento, se esse contiver v\u00e1rias duplicatas da mesma imagem. Al\u00e9m do exemplo acima com a foto de Ann Graham Lotz, o estudo fornece alguns outros resultados semelhantes:<\/p>\n<div id=\"attachment_21208\" style=\"width: 1562px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/94\/2023\/05\/08135556\/neural-networks-data-leaks-03.jpg\"><img decoding=\"async\" aria-describedby=\"caption-attachment-21208\" class=\"wp-image-21208 size-full\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/94\/2023\/05\/08135556\/neural-networks-data-leaks-03.jpg\" alt=\"Linhas \u00edmpares: imagens originais. Linhas pares: imagens geradas pelo Stable Diffusion v1.4. \" width=\"1552\" height=\"1120\"><\/a><p id=\"caption-attachment-21208\" class=\"wp-caption-text\">Linhas \u00edmpares: imagens originais. Linhas pares: imagens geradas pelo Stable Diffusion v1.4. <a href=\"https:\/\/arxiv.org\/pdf\/2301.13188.pdf\" target=\"_blank\" rel=\"nofollow noopener\">Fonte<\/a><\/p><\/div>\n<p>Se uma imagem for duplicada no conjunto de treinamento mais de cem vezes, h\u00e1 uma chance muito alta de seu vazamento na sua forma quase original. No entanto, os pesquisadores demonstraram maneiras de recuperar imagens de treinamento que s\u00f3 apareceram uma vez no conjunto original. Esse m\u00e9todo \u00e9 muito menos eficiente: das quinhentas imagens testadas, o algoritmo recriou aleatoriamente apenas tr\u00eas delas. O m\u00e9todo mais elaborado de atacar uma rede neural envolve recriar uma imagem original usando apenas um fragmento dela como entrada.<\/p>\n<div id=\"attachment_21209\" style=\"width: 1382px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/94\/2023\/05\/08140256\/neural-networks-data-leaks-04.jpg\"><img decoding=\"async\" aria-describedby=\"caption-attachment-21209\" class=\"wp-image-21209 size-full\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/94\/2023\/05\/08140256\/neural-networks-data-leaks-04.jpg\" alt=\"Os pesquisadores pediram \u00e0 rede neural que completasse a imagem, depois de excluir parte dela. Isso pode ser feito para determinar com bastante precis\u00e3o se uma imagem espec\u00edfica estava no conjunto de treinamento. Se estivesse, o algoritmo de aprendizado de m\u00e1quina gerou uma c\u00f3pia quase exata da foto ou desenho original.\" width=\"1372\" height=\"696\"><\/a><p id=\"caption-attachment-21209\" class=\"wp-caption-text\">Os pesquisadores pediram \u00e0 rede neural que completasse a imagem, depois de excluir parte dela. Isso pode ser feito para determinar com bastante precis\u00e3o se uma imagem espec\u00edfica estava no conjunto de treinamento. Se estivesse, o algoritmo de aprendizado de m\u00e1quina gerou uma c\u00f3pia quase exata da foto ou desenho original. <a href=\"https:\/\/arxiv.org\/pdf\/2301.13188.pdf\" target=\"_blank\" rel=\"nofollow noopener\">Fonte<\/a><\/p><\/div>\n<p>Nesse ponto, focar na quest\u00e3o das redes neurais e dos direitos autorais.<\/p>\n<h2>Quem roubou de quem?<\/h2>\n<p>Em janeiro de 2023, tr\u00eas artistas <a href=\"https:\/\/www.theregister.com\/2023\/01\/16\/stability_diffusion_lawsuit\/\" target=\"_blank\" rel=\"nofollow noopener\">processaram<\/a> os criadores de servi\u00e7os de gera\u00e7\u00e3o de imagens que usavam algoritmos de aprendizagem de m\u00e1quina. Eles alegaram (justificadamente) que os desenvolvedores treinaram as redes neurais com imagens coletadas online, sem nenhum respeito pelos direitos autorais. Uma rede neural pode de fato copiar o estilo de um artista em particular e, assim, priv\u00e1-lo de renda. O artigo sugere que, em alguns casos, os algoritmos podem, por v\u00e1rios motivos, se envolver em pl\u00e1gio total, gerando desenhos, fotografias e outras imagens quase id\u00eanticas ao trabalho de artistas reais.<\/p>\n<p>O estudo faz recomenda\u00e7\u00f5es para fortalecer a privacidade do conjunto de treinamento original:<\/p>\n<ul>\n<li>Livre-se das duplicatas.<\/li>\n<li>Reprocessar imagens de treinamento, por exemplo, adicionando ru\u00eddo ou alterando o brilho; isso torna o vazamento de dados menos prov\u00e1vel.<\/li>\n<li>Testar o algoritmo com imagens de treinamento especiais e, a seguir, verifique se o resultado n\u00e3o as reproduz inadvertidamente com precis\u00e3o.<\/li>\n<\/ul>\n<h2>E agora?<\/h2>\n<p>A \u00e9tica e a legalidade da arte generativa certamente contribuem para um debate interessante, no qual deve ser buscado um equil\u00edbrio entre os artistas e os desenvolvedores de tecnologia. Por um lado, os direitos autorais devem ser respeitados. Por outro, a arte por computador \u00e9 mesmo t\u00e3o diferente da humana? Em ambos os casos, os criadores se inspiram nos trabalhos de colegas e competidores.<\/p>\n<p>Mas vamos voltar ao ponto e falar sobre seguran\u00e7a. O documento fornece um conjunto espec\u00edfico de fatos sobre apenas um modelo de aprendizagem de m\u00e1quina. Estendendo o conceito para <em>todos<\/em> os algoritmos semelhantes, chegamos a uma situa\u00e7\u00e3o interessante. N\u00e3o \u00e9 dif\u00edcil imaginar um cen\u00e1rio em que um assistente inteligente de um operador de telefonia m\u00f3vel forne\u00e7a informa\u00e7\u00f5es corporativas confidenciais em resposta a uma consulta do usu\u00e1rio: afinal, essas informa\u00e7\u00f5es estavam nos dados de treinamento. Ou, por exemplo, uma consulta astuta engana uma rede neural p\u00fablica para gerar uma c\u00f3pia do passaporte de algu\u00e9m. Os pesquisadores enfatizam que tais problemas permanecem te\u00f3ricos, por enquanto.<\/p>\n<p>Mas outros problemas j\u00e1 s\u00e3o realidade. Nesse exato momento, a rede neural geradora de texto ChatGPT est\u00e1 sendo usada para <a href=\"https:\/\/www.kaspersky.com.br\/blog\/chatgpt-cybersecurity\/20669\/\" target=\"_blank\" rel=\"noopener\">escrever<\/a> c\u00f3digo mal-intencionado real que (\u00e0s vezes) funciona. E o <a href=\"https:\/\/github.com\/features\/copilot\" target=\"_blank\" rel=\"nofollow noopener\">GitHub Copilot<\/a> est\u00e1 ajudando os programadores a escrever c\u00f3digo, usando uma enorme quantidade de software de c\u00f3digo aberto como entrada. E a ferramenta nem sempre respeita os direitos autorais e a privacidade dos autores cujo c\u00f3digo acabou sendo usado no extenso conjunto de dados de treinamento. \u00c0 medida que as redes neurais evoluem, os ataques a elas tamb\u00e9m evoluem, com consequ\u00eancias que ningu\u00e9m ainda \u00e9 capaz de entender completamente.<\/p>\n<input type=\"hidden\" class=\"category_for_banner\" value=\"premium-geek\">\n","protected":false},"excerpt":{"rendered":"<p>As redes neurais geradoras de imagens est\u00e3o em toda parte. Que riscos elas trazem \u00e0 privacidade?<\/p>\n","protected":false},"author":665,"featured_media":21210,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[1260,1029],"tags":[218,1342,3151],"class_list":{"0":"post-21205","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-threats","8":"category-technology","9":"tag-ameacas","10":"tag-ia","11":"tag-redes-neurais"},"hreflang":[{"hreflang":"pt-br","url":"https:\/\/www.kaspersky.com.br\/blog\/neural-networks-data-leaks\/21205\/"},{"hreflang":"en-in","url":"https:\/\/www.kaspersky.co.in\/blog\/neural-networks-data-leaks\/25561\/"},{"hreflang":"en-ae","url":"https:\/\/me-en.kaspersky.com\/blog\/neural-networks-data-leaks\/20981\/"},{"hreflang":"ar","url":"https:\/\/me.kaspersky.com\/blog\/neural-networks-data-leaks\/10573\/"},{"hreflang":"en-us","url":"https:\/\/usa.kaspersky.com\/blog\/neural-networks-data-leaks\/28191\/"},{"hreflang":"en-gb","url":"https:\/\/www.kaspersky.co.uk\/blog\/neural-networks-data-leaks\/25858\/"},{"hreflang":"es-mx","url":"https:\/\/latam.kaspersky.com\/blog\/neural-networks-data-leaks\/26274\/"},{"hreflang":"es","url":"https:\/\/www.kaspersky.es\/blog\/neural-networks-data-leaks\/28760\/"},{"hreflang":"it","url":"https:\/\/www.kaspersky.it\/blog\/neural-networks-data-leaks\/27728\/"},{"hreflang":"ru","url":"https:\/\/www.kaspersky.ru\/blog\/neural-networks-data-leaks\/35172\/"},{"hreflang":"x-default","url":"https:\/\/www.kaspersky.com\/blog\/neural-networks-data-leaks\/47992\/"},{"hreflang":"fr","url":"https:\/\/www.kaspersky.fr\/blog\/neural-networks-data-leaks\/20509\/"},{"hreflang":"de","url":"https:\/\/www.kaspersky.de\/blog\/neural-networks-data-leaks\/30084\/"},{"hreflang":"ja","url":"https:\/\/blog.kaspersky.co.jp\/neural-networks-data-leaks\/33812\/"},{"hreflang":"ru-kz","url":"https:\/\/blog.kaspersky.kz\/neural-networks-data-leaks\/26176\/"},{"hreflang":"en-au","url":"https:\/\/www.kaspersky.com.au\/blog\/neural-networks-data-leaks\/31867\/"},{"hreflang":"en-za","url":"https:\/\/www.kaspersky.co.za\/blog\/neural-networks-data-leaks\/31551\/"}],"acf":[],"banners":"","maintag":{"url":"https:\/\/www.kaspersky.com.br\/blog\/tag\/redes-neurais\/","name":"redes neurais"},"_links":{"self":[{"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/posts\/21205","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/users\/665"}],"replies":[{"embeddable":true,"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/comments?post=21205"}],"version-history":[{"count":8,"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/posts\/21205\/revisions"}],"predecessor-version":[{"id":21341,"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/posts\/21205\/revisions\/21341"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/media\/21210"}],"wp:attachment":[{"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/media?parent=21205"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/categories?post=21205"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/tags?post=21205"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}