{"id":19082,"date":"2022-03-30T14:49:48","date_gmt":"2022-03-30T17:49:48","guid":{"rendered":"https:\/\/www.kaspersky.com.br\/blog\/?post_type=emagazine&#038;p=19082"},"modified":"2022-03-30T14:49:19","modified_gmt":"2022-03-30T17:49:19","slug":"nlp-language-model-privacy","status":"publish","type":"emagazine","link":"https:\/\/www.kaspersky.com.br\/blog\/secure-futures-magazine\/nlp-language-model-privacy\/19082\/","title":{"rendered":"Como empresas podem garantir um processamento de linguagem natural eficaz"},"content":{"rendered":"<p>Em 2020, <a href=\"https:\/\/bair.berkeley.edu\/blog\/2020\/12\/20\/lmmem\/\" target=\"_blank\" rel=\"noopener nofollow\">pesquisadores do Google, Apple e da Universidade de Berkeley, entre outros, mostraram que podiam atacar um modelo de machine learning<\/a>, o processamento de linguagem natural (PLN) modelo GPT-2. Eles fizeram com que o modelo exibisse informa\u00e7\u00f5es pessoais, capazes de identificar uma pessoa, que foram memorizadas durante o treinamento.<\/p>\n<p>Embora isso soe como uma brincadeira de pol\u00edcia e ladr\u00e3o para amantes de tecnologia, o que esses pesquisadores descobriram pode afetar empresas que est\u00e3o usando PLN. Vou explicar como, por que e o que voc\u00ea pode fazer para deixar a sua IA mais segura.<\/p>\n<h2>O poder do processamento de linguagem natural<\/h2>\n<blockquote><p>O PLN \u00e9 parte de muitas aplica\u00e7\u00f5es presentes em nosso dia a dia, desde o recurso de autocompletar em smarphones a chatbots de atendimento ao cliente. \u00c9 como as m\u00e1quinas podem entender o que queremos dizer, mesmo com apenas algumas palavras, para nos oferecer sugest\u00f5es relevantes.<\/p>\n<\/blockquote>\n<p>O PLN est\u00e1 melhorando gra\u00e7as a grandes modelos de linguagem: <a href=\"https:\/\/en.wikipedia.org\/wiki\/Artificial_neural_network\" target=\"_blank\" rel=\"noopener nofollow\">Redes neurais gigantescas<\/a> treinadas com bilh\u00f5es de palavras que passam a impress\u00e3o de uma linguagem humana. Eles aprendem em m\u00faltiplas camadas, incluindo gram\u00e1tica, sintaxe e fatos sobre o mundo. Escanear not\u00edcias podem ensinar esses modelos a responder perguntas como quem \u00e9 o presidente do pa\u00eds ou a que ind\u00fastria a sua empresa pertence.<\/p>\n\t\t\t<div class=\"c-promo-product\">\n\t\t\t\t\t\t\t<a href=\"https:\/\/www.kaspersky.com.br\/enterprise-security\" class=\"c-promo-product__figure\">\n\t\t\t\t\t<img decoding=\"async\" width=\"300\" height=\"300\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/94\/2022\/03\/15150201\/Secure-future-logo_png.png\" class=\"attachment-card-default size-card-default\" alt=\"\" data-src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/94\/2022\/03\/15150201\/Secure-future-logo_png.png\" data-srcset=\"\" srcset=\"\">\t\t\t\t<\/a>\n\t\t\t\t\t\t<article class=\"c-card c-card--link c-card--medium@sm c-card--aside-hor@lg\">\n\t\t\t\t<div class=\"c-card__body  \">\n\t\t\t\t\t<header class=\"c-card__header\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t<p class=\"c-card__headline\">Ciberseguran\u00e7a para grandes empresas<\/p>\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<h3 class=\"c-card__title \"><span>Ciberseguran\u00e7a empresarial<\/span><\/h3>\n\t\t\t\t\t\t\t\t\t\t\t<\/header>\n\t\t\t\t\t\t\t\t\t\t\t<div class=\"c-card__desc \">\n\t\t\t\t\t\t\t<p>Nossas solu\u00e7\u00f5es de ciberseguran\u00e7a para necessidades espec\u00edficas de grandes empresas e neg\u00f3cios.<\/p>\n\t\t\t\t\t\t<\/div>\n\t\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t\t\t\t\t<div class=\"c-card__aside\">\n\t\t\t\t\t<a href=\"https:\/\/www.kaspersky.com.br\/enterprise-security\" class=\"c-button c-card__link\" target=\"_blank\" rel=\"noopener\">Empresa segura<\/a>\n\t\t\t\t<\/div>\n\t\t\t\t\t\t\t<\/article>\n\t\t<\/div>\n\t\n<p>Existem muitas formas de aplicar grandes modelos de linguagem. O <a href=\"https:\/\/blog.google\/products\/search\/search-language-understanding-bert\/\" target=\"_blank\" rel=\"noopener nofollow\">Google usa seu modelo de linguagem BERT<\/a> para melhorar a qualidade de busca. Servi\u00e7os de tradu\u00e7\u00e3o como o <a href=\"https:\/\/www.microsoft.com\/en-us\/research\/project\/neural-machine-translation\/\" target=\"_blank\" rel=\"noopener nofollow\">Google Translate e o Deepl usam grandes redes neurais<\/a>. <a href=\"https:\/\/medium.com\/engineering-at-grammarly\/under-the-hood-at-grammarly-leveraging-transformer-language-models-for-grammatical-error-2945b0672884\" target=\"_blank\" rel=\"noopener nofollow\">Grammarly usa PLN de base neural<\/a> para melhorar suas sugest\u00f5es de texto.<\/p>\n<p>\u201cA variedade de aplica\u00e7\u00f5es para modelos de linguagem \u00e9 enorme\u201d, afirma Alena Fenogenova, especialista em PLN na SberDevices, fabricante de dispositivos inteligentes. Ela trabalhou na vers\u00e3o russa do GPT-3 e em uma <a href=\"https:\/\/russiansuperglue.com\/\" target=\"_blank\" rel=\"noopener nofollow\">refer\u00eancia para avaliar a qualidade de modelos de linguagem russos<\/a>. \u201cEsses modelos podem nos ajudar a criar coisas como livros, an\u00fancios ou c\u00f3digos.\u201d<\/p>\n<p>A rede neural do OpenAI, a GPT-2, foi manchete por gerar <a href=\"https:\/\/openai.com\/blog\/better-language-models\/\" target=\"_blank\" rel=\"noopener nofollow\">not\u00edcias sobre cientistas descobrindo unic\u00f3rnios nos Andes<\/a>, provocando temores sobre desinforma\u00e7\u00e3o automatizada. Desde ent\u00e3o, a <a href=\"https:\/\/openai.com\/blog\/gpt-3-apps\/\" target=\"_blank\" rel=\"noopener nofollow\">OpenAI lan\u00e7ou o GPT-3<\/a>, afirmando que fizeram melhorias no GPT-2 em muitos aspectos. As pessoas est\u00e3o usando o produto para coisas incr\u00edveis como <a href=\"https:\/\/twitter.com\/michaeltefula\/status\/1285505897108832257\" target=\"_blank\" rel=\"noopener nofollow\">simplificar documentos legais para um ingl\u00eas mais simples<\/a>. O GPT-3 pode at\u00e9 <a href=\"https:\/\/twitter.com\/sharifshameem\/status\/1282676454690451457\" target=\"_blank\" rel=\"noopener nofollow\">gerar um c\u00f3digo para um site baseado em uma descri\u00e7\u00e3o por escrito<\/a>. T\u00e9cnicas de PLN tamb\u00e9m funcionam em linguagens de programa\u00e7\u00e3o, o que leva a produtos como o Microsoft Intellicode e o Copilot da GitHub, que presta assist\u00eancia a programadores.<\/p>\n<p>Fenogenova completa: \u201cVoc\u00ea pode treinar esses modelos em qualquer sequ\u00eancia, n\u00e3o s\u00f3 texto. Voc\u00ea pode estudar sequ\u00eancias gen\u00e9ticas ou fazer experimentos com m\u00fasica.\u201d<\/p>\n<h2>Os dados s\u00e3o essenciais<\/h2>\n<p>Para criar esses modelos, voc\u00ea precisa ter acesso a um volume enorme de dados n\u00e3o processados, por exemplo, textos da internet para trabalhar com a linguagem natural ou c\u00f3digo de programa\u00e7\u00e3o para gerar c\u00f3digo. Por isso, n\u00e3o \u00e9 nenhuma coincid\u00eancia que empresas como Google e o software de recurso de desenvolvimento GitHub est\u00e3o entre os l\u00edderes de modelos de linguagem.<\/p>\n<p>Empresas de tecnologia costumam tornar esses grandes modelos <em>open source<\/em> para que outros construam em cima deles, mas os dados usados para criar esses modelos e os dados in-house utilizados para aperfei\u00e7o\u00e1-los podem afetar o comportamento do modelo.<\/p>\n<p>O que eu quero dizer? Em <em>machine learning<\/em>, <a href=\"https:\/\/en.wikipedia.org\/wiki\/Garbage_in,_garbage_out\" target=\"_blank\" rel=\"noopener nofollow\">dados de baixa qualidade levam a uma performance ruim<\/a>. Mas parece que um modelo de <em>machine learning<\/em> tamb\u00e9m consegue absorver bastante informa\u00e7\u00e3o de dados n\u00e3o processados.<\/p>\n<h2>Preconceito entra, preconceito sai<\/h2>\n<p>Assim como sistemas de vis\u00e3o de computador replicam preconceitos, <a href=\"https:\/\/news.mit.edu\/2018\/study-finds-gender-skin-type-bias-artificial-intelligence-systems-0212\" target=\"_blank\" rel=\"noopener nofollow\">tendo problemas em reconhecer imagens de pessoas negras, por exemplo<\/a>, modelos de PLN replicam preconceitos ocultos em nossa linguagem natural. Passando por um teste de analogia, um modelo simples decidiu que <a href=\"https:\/\/papers.nips.cc\/paper\/2016\/file\/a486cd07e4ac3d270571622f4f316ec5-Paper.pdf\" target=\"_blank\" rel=\"noopener nofollow\">\u201chomem\u201d est\u00e1 para \u201cprogramador de computador\u201d assim como \u201cmulher\u201d est\u00e1 para \u201cdona de casa\u201d<\/a>.<\/p>\n<p><em>Modelos mais complexos, como modelos de linguagem, podem apresentar uma s\u00e9rie de preconceitos, tanto escancarados quanto sutis. Pesquisadores do Allen Institute for AI descobriram que muitos <\/em><a href=\"https:\/\/toxicdegeneration.allenai.org\/\" target=\"_blank\" rel=\"noopener nofollow\">modelos de linguagem geram textos falsos, cheios de preconceito e ofensivos gra\u00e7as aos dados de treinamento que receberam.<\/a><\/p>\n<p>\u201cOs dados em texto usados para treinar esses modelos s\u00e3o enormes, por isso podem conter preconceitos de g\u00eanero, raciais e outros \u201c, afirma Fenogenova. \u201cSe voc\u00ea pedir para um modelo terminar as frases, \u2018um homem deve\u2026\u2019 e \u2018uma mulher deve..\u2019, os resultados provavelmente ser\u00e3o alarmantes\u201d, completa.<\/p>\n<p>O problema vai al\u00e9m de pesquisas. Em 2016, a <a href=\"https:\/\/www.theverge.com\/2016\/3\/24\/11297050\/tay-microsoft-chatbot-racist\" target=\"_blank\" rel=\"noopener nofollow\">Microsoft encerrou seu chatbot porque ele aprendeu a ser racista e mis\u00f3gino depois de um dia participando de conversas no Twitter<\/a>. Em 2021, os <a href=\"https:\/\/www.theguardian.com\/world\/2021\/jan\/14\/time-to-properly-socialise-hate-speech-ai-chatbot-pulled-from-facebook\" target=\"_blank\" rel=\"noopener nofollow\">criadores sul-coreanos de um chatbot do Facebook que tentava imitar um estudante universit\u00e1rio tiveram de encerrar o projeto quando ele come\u00e7ou a apresentar discurso de \u00f3dio<\/a>. O comportamento de PLN pode tamb\u00e9m prejudicar reputa\u00e7\u00f5es, al\u00e9m de perpetuar preconceitos.<\/p>\n<h2>Modelos que sabem demais<\/h2>\n<p>Em 2018, uma equipe de pesquisadores do Google acrescentou uma sequ\u00eancia teste \u201cMeu n\u00famero do seguro social \u00e9 078-05-1120\u201d em um conjunto de dados, treinou um modelo de linguagem com essa sequ\u00eancia e depois tentaram extrair a informa\u00e7\u00e3o. Eles descobriram que <a href=\"https:\/\/arxiv.org\/abs\/1802.08232\" target=\"_blank\" rel=\"noopener nofollow\">poderiam ter acesso ao n\u00famero a n\u00e3o ser que \u201ctomassem muito cuidado\u201d<\/a>. Eles desenvolveram uma m\u00e9trica para ajudar pesquisadores e engenheiros a testar esse tipo de \u201cmemoriza\u00e7\u00e3o\u201d em seus modelos. <a href=\"https:\/\/bair.berkeley.edu\/blog\/2020\/12\/20\/lmmem\/\" target=\"_blank\" rel=\"noopener nofollow\">Pesquisadores e colegas checaram o trabalho em 2020,<\/a> como mencionei anteriormente, testando o GPT-2 com comandos e descobriram que o modelo \u00e0s vezes completava os comandos com dados pessoais.<\/p>\n<p>Quando o GitHub lan\u00e7ou seu modelo de linguagem de programa\u00e7\u00e3o Copilot, <a href=\"https:\/\/mobile.twitter.com\/tomchop_\/status\/1411655975451385862\" target=\"_blank\" rel=\"noopener nofollow\">as pessoas fizeram piadas dizendo que o Copilot poderia completar senhas privadas do Secure Shell (SSH).<\/a> (O Secure Shell conecta com seguran\u00e7a computadores remotos a uma rede insegura). Mas o que o Copilot acabou fazendo tamb\u00e9m era preocupante: <a href=\"https:\/\/fossbytes.com\/github-copilot-generating-functional-api-keys\/\" target=\"_blank\" rel=\"noopener nofollow\">Gerou c\u00f3digos contendo senhas de API v\u00e1lidas, dando a usu\u00e1rios acesso a recursos restritos<\/a>. Embora ainda existam quest\u00f5es sobre como essas chaves estavam em meio aos dados de treinamento do Copilot, demonstrando que existem poss\u00edveis consequ\u00eancias para a memoriza\u00e7\u00e3o de dados.<\/p>\n<h2>Fazendo com que PLN tenha menos preconceitos e seja mais consciente de quest\u00f5es de privacidade<\/h2>\n<p>Existem muitos riscos em grandes modelos de gera\u00e7\u00e3o de texto. A princ\u00edpio, n\u00e3o est\u00e1 claro como princ\u00edpios de prote\u00e7\u00e3o de dados e legisla\u00e7\u00e3o se aplicam a dados memorizados. Se algu\u00e9m pede seus dados pessoais de uma empresa, eles t\u00eam direitos a modelos treinados usando esses dados? Como podemos verificar se um modelo n\u00e3o memorizou certas informa\u00e7\u00f5es e como remover essa informa\u00e7\u00e3o? O mesmo se aplica ao \u201cdireito de ser esquecido\u201d, parte de algumas regulamenta\u00e7\u00f5es de dados.<\/p>\n<p>Outra quest\u00e3o \u00e9 o copyright. Pesquisadores descobriram que o GPT-2 reproduziu uma p\u00e1gina inteira de um livro da s\u00e9rie Harry Potter a partir de alguns comandos. <a href=\"https:\/\/twitter.com\/eevee\/status\/1410037309848752128\" target=\"_blank\" rel=\"noopener nofollow\">O Copilot apresenta algumas quest\u00f5es dif\u00edceis sobre quem escreveu o c\u00f3digo que ele gera<\/a>.<\/p>\n<blockquote><p>Se voc\u00ea quer usar esses modelos comercialmente, voc\u00ea pode tentar filtrar os dados procurando por preconceitos, mas isso pode ser uma tarefa imposs\u00edvel em raz\u00e3o da escala do conjunto de dados usados atualmente. Tamb\u00e9m n\u00e3o est\u00e1 muito claro o que deve ser filtrado. At\u00e9 as frases mais neutras podem ser um motivo de preconceito de g\u00eanero quando o modelo gera um texto.<\/p>\n<cite><p><strong>Alena Fenogenova<\/strong><\/p><p>especialista em PLN, SberDevices<\/p><\/cite><\/blockquote>\n<p>\u201cOutra abordagem pode ser usar \u2018censores\u2019 autom\u00e1ticos para detectarem textos inapropriados antes de eles chegarem a usu\u00e1rios. Voc\u00ea tamb\u00e9m pode criar censores que detectam e filtram dados privados\u201d, afirma Fenogenova. \u201cEmpresas tamb\u00e9m podem filtrar dados n\u00e3o processados para minimizar o risco de dados privados serem memorizados pelo modelo, mas \u00e9 dif\u00edcil limpar conjuntos de dados desse tamanho. Pesquisadores est\u00e3o avaliando a \u2018gera\u00e7\u00e3o controlada\u2019, na qual voc\u00ea guia o processo de gera\u00e7\u00e3o do modelo j\u00e1 treinado.\u201d<\/p>\n<p>Apesar dessas quest\u00f5es, redes neurais com base em PLN continuar\u00e3o a transformar como as empresas lidam com tudo quanto \u00e9 texto, desde intera\u00e7\u00f5es com o consumidor \u00e0 cria\u00e7\u00e3o de conte\u00fado de marketing. Prestar aten\u00e7\u00e3o nos riscos de modelos de linguagem e seus usos ir\u00e3o proteger voc\u00ea e seus clientes, al\u00e9m de ajudar a tornar seus projetos de PLN mais bem sucedidos.<\/p>\n<p>\u00a0<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Ensinar a IA a entender e criar uma linguagem natural exige grandes conjuntos de dados. Se queremos que a IA fale de um jeito que represente nosso neg\u00f3cio, precisamos tomar cuidado.<\/p>\n","protected":false},"author":2544,"featured_media":19084,"template":"","coauthors":[2949],"class_list":{"0":"post-19082","1":"emagazine","2":"type-emagazine","3":"status-publish","4":"has-post-thumbnail","6":"emagazine-category-data-and-privacy","7":"emagazine-category-artificial-intelligence","8":"emagazine-category-business","9":"emagazine-category-technology","10":"emagazine-category-digital-transformation","11":"emagazine-tag-redes-neurais","12":"emagazine-tag-big-data","13":"emagazine-tag-processamento-de-linguagem-natural"},"hreflang":[{"hreflang":"pt-br","url":"https:\/\/www.kaspersky.com.br\/blog\/secure-futures-magazine\/nlp-language-model-privacy\/19082\/"},{"hreflang":"es-mx","url":"https:\/\/latam.kaspersky.com\/blog\/secure-futures-magazine\/nlp-language-model-privacy\/24056\/"},{"hreflang":"x-default","url":"https:\/\/www.kaspersky.com\/blog\/secure-futures-magazine\/nlp-language-model-privacy\/41410\/"}],"acf":[],"_links":{"self":[{"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/emagazine\/19082","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/emagazine"}],"about":[{"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/types\/emagazine"}],"author":[{"embeddable":true,"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/users\/2544"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/media\/19084"}],"wp:attachment":[{"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/media?parent=19082"}],"wp:term":[{"taxonomy":"author","embeddable":true,"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/coauthors?post=19082"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}