{"id":6271,"date":"2016-05-19T21:39:36","date_gmt":"2016-05-19T18:39:36","guid":{"rendered":"https:\/\/kasperskydaily.com\/brazil\/?p=6271"},"modified":"2019-11-22T07:38:07","modified_gmt":"2019-11-22T10:38:07","slug":"nine-big-data-issues","status":"publish","type":"post","link":"https:\/\/www.kaspersky.com.br\/blog\/nine-big-data-issues\/6271\/","title":{"rendered":"Falhas que precisam ser corrigidas no Big Data"},"content":{"rendered":"<p>O Big data tem sido alvo de debates nos \u00faltimos anos. Essas discuss\u00f5es est\u00e3o normalmente centradas nas imensur\u00e1veis oportunidades da tecnologia. No entanto, o\u00a0resultado dessas conversas pode ser um pouco assustador. A maioria das pessoas concorda que a potencialidade dos grandes volumes de dados armazenados \u00e9 incr\u00edvel, por\u00e9m, como qualquer tecnologia emergente, h\u00e1\u00a0certos problemas.<\/p>\n<p><strong>Adeus, privacidade!<br>\n<\/strong>O primeiro problema associado com o Big Data \u00e9 a\u00a0<strong>privacidade<\/strong>.<\/p>\n<p>O Big Data consiste em um grande conjunto de dados armazenados, e quanto mais privada a informa\u00e7\u00e3o, mais eficientemente os algoritmos podem alcan\u00e7ar conclus\u00f5es n\u00e3o t\u00e3o \u00f3bvias. De maneira simples, dados privados s\u00e3o a m\u00e1gica por tr\u00e1s do Big Data.<\/p>\n<p><strong>Pura ci\u00eancia (s\u00f3 que n\u00e3o)<br>\n<\/strong>As pessoas consideram as solu\u00e7\u00f5es do Big Data como ci\u00eancia. A quest\u00e3o \u00e9 que os algoritmos est\u00e3o mais para engenharia. Uma grande diferen\u00e7a.<\/p>\n<p>Imagine colocar a f\u00edsica contra foguetes. A f\u00edsica \u00e9 a ci\u00eancia inquestion\u00e1vel, cada informa\u00e7\u00e3o foi pesquisada e comprovada, na teoria e pr\u00e1tica. Depois, foi verificada pela comunidade cient\u00edfica, simplesmente porque \u00e9 assim que funciona.<\/p>\n<p>No entanto, a ci\u00eancia \u00e9 um campo que est\u00e1 em constante constru\u00e7\u00e3o. Qualquer fato pode ser verificado a qualquer momento por qualquer um que tenha interesse. E se qualquer problema for identificado ou uma nova teoria emergir, tudo se resume a uma discuss\u00e3o da comunidade cient\u00edfica.<\/p>\n<p>Foguetes s\u00e3o estruturas de engenharia baseadas em princ\u00edpios f\u00edsicos. A hist\u00f3ria j\u00e1 nos provou que muito pode dar errado, caso o projeto n\u00e3o tenha sido conduzido com extremo cuidado. Ou ainda, se as condi\u00e7\u00f5es n\u00e3o forem as ideais, o que no fim, resulta no mesmo, pois implica que a concep\u00e7\u00e3o n\u00e3o est\u00e1 boa para lidar com as condi\u00e7\u00f5es, especialmente, as inesperadas.<\/p>\n<blockquote class=\"twitter-tweet\" data-width=\"500\" data-dnt=\"true\">\n<p lang=\"pt\" dir=\"ltr\">Existem muitos projetos interessantes e engra\u00e7ados no mundo do <a href=\"https:\/\/twitter.com\/hashtag\/bigdata?src=hash&amp;ref_src=twsrc%5Etfw\" target=\"_blank\" rel=\"noopener nofollow\">#bigdata<\/a>. Veja o Top10! <a href=\"http:\/\/t.co\/jYv7s85IWU\" target=\"_blank\" rel=\"noopener nofollow\">http:\/\/t.co\/jYv7s85IWU<\/a> <a href=\"http:\/\/t.co\/eOfIAmGSsE\" target=\"_blank\" rel=\"noopener nofollow\">pic.twitter.com\/eOfIAmGSsE<\/a><\/p>\n<p>\u2014 Kaspersky Brasil (@Kasperskybrasil) <a href=\"https:\/\/twitter.com\/Kasperskybrasil\/status\/585883750787112960?ref_src=twsrc%5Etfw\" target=\"_blank\" rel=\"noopener nofollow\">April 8, 2015<\/a><\/p><\/blockquote>\n<p><script async src=\"https:\/\/platform.twitter.com\/widgets.js\" charset=\"utf-8\"><\/script><\/p>\n<p><strong>N\u00e3o tem discuss\u00e3o com n\u00fameros. Ou tem?<\/strong><br>\nUma das consequ\u00eancias dessa m\u00e1xima \u00e9 uma falsa autoridade. As pessoas t\u00eam de aceitar decis\u00f5es de algoritmos do Big Data como confi\u00e1veis -a n\u00e3o ser por matem\u00e1ticos que poderiam discutir e provar a incompet\u00eancia de um modelo de algoritmo. Mas seriam eles realmente capazes?<\/p>\n<p><strong>Sem luz no fim do t\u00fanel?<br>\n<\/strong>Mesmo com conhecimento e experi\u00eancia em matem\u00e1tica, caso voc\u00ea queira ver como aquele algoritmo funciona, dificilmente ganhar\u00e1 acesso. Isso se justifica pelo car\u00e1ter comercial do software, com\u00a0c\u00f3digo fonte protegido. Pesquisadores desistem ao notar que n\u00e3o conseguir\u00e3o dar uma olhada nesse tipo de coisa. Muitas empresas agradecem o contato e colocam o interessado para correr.<\/p>\n<p>Cathy O\u2019Neil, matem\u00e1tica e ativista de direitos humanos falou em sua palestra \u201cMatem\u00e1tica: Arma de destrui\u00e7\u00e3o em massa\u201d, sobre as <a href=\"https:\/\/en.wikipedia.org\/wiki\/Value-added_modeling\" target=\"_blank\" rel=\"noopener nofollow\">m\u00e9tricas de valor agregado<\/a> que um algoritmo estabelece para a avalia\u00e7\u00e3o dos professores nos Estados Unidos.<\/p>\n<p>\u201cTenho uma amiga diretora de uma escola em Nova York que queria entender o algoritmo. Ela est\u00e1 numa escola voltada para o ensino de ci\u00eancias e matem\u00e1tica, o que a fez pensar que seria capaz de o entender. Quando ela pediu a informa\u00e7\u00e3o ao departamento de educa\u00e7\u00e3o, ouviu uma recusa baseada no fato de que se tratava de matem\u00e1tica pura\u201d.<\/p>\n<p>\u201cEla persistiu e finalmente recebeu um papel que me mostrou. Era abstrato demais para ter qualquer utilidade. Eu fiz ent\u00e3o o pedido com base na lei de acesso a informa\u00e7\u00e3o para obter o c\u00f3digo fonte, o que foi negado. Mais tarde, descobri que o grupo de pesquisa em Madison, Wisconsin, encarregado pelo algoritmo, possui um contrato que protege seu c\u00f3digo-fonte.\u201d<\/p>\n<p>\u201cNingu\u00e9m no Departamento de Educa\u00e7\u00e3o de Nova York entende o modelo, nenhum professor deve entender ou melhor\u00e1-lo, j\u00e1 que n\u00e3o \u00e9 transparente o modo de funcionamento.\u201d<\/p>\n<blockquote class=\"twitter-tweet\" data-width=\"500\" data-dnt=\"true\">\n<p lang=\"pt\" dir=\"ltr\">Como o <a href=\"https:\/\/twitter.com\/hashtag\/BigData?src=hash&amp;ref_src=twsrc%5Etfw\" target=\"_blank\" rel=\"noopener nofollow\">#BigData<\/a> ajuda a capturar criminosos | <a href=\"http:\/\/t.co\/0STyXSrwdn\" target=\"_blank\" rel=\"noopener nofollow\">http:\/\/t.co\/0STyXSrwdn<\/a> <a href=\"http:\/\/t.co\/X5duCXSlc7\" target=\"_blank\" rel=\"noopener nofollow\">pic.twitter.com\/X5duCXSlc7<\/a><\/p>\n<p>\u2014 Kaspersky Brasil (@Kasperskybrasil) <a href=\"https:\/\/twitter.com\/Kasperskybrasil\/status\/654261884451987456?ref_src=twsrc%5Etfw\" target=\"_blank\" rel=\"noopener nofollow\">October 14, 2015<\/a><\/p><\/blockquote>\n<p><script async src=\"https:\/\/platform.twitter.com\/widgets.js\" charset=\"utf-8\"><\/script><\/p>\n<p><strong>O que fica dentro ou fora?<br>\n<\/strong>J\u00e1 que algoritmos s\u00e3o opacos, os dados de entrada tamb\u00e9m s\u00e3o. Um operador de Big Data n\u00e3o consegue ter certeza sobre os dados que foram processados pelo algoritmo e quais n\u00e3o foram. Dessa forma, alguns dados podem afetar o resultado mais de uma vez, processado pelo algoritmo na primeira vez e uma segunda pelo operador. Ou ainda, dados importantes podem ser deixados de lado, caso o operador julgue que j\u00e1 foram inclu\u00eddos.<\/p>\n<p>Por exemplo, a pol\u00edcia entra em uma vizinhan\u00e7a com altos \u00edndices de criminalidade. O software alerta que o homem tem 55% de chance de ser um criminoso. O homem carrega uma mala bem suspeita, mas o policial n\u00e3o tem certeza se o algoritmo j\u00e1 levou isso em conta. Dessa forma, fica a cargo do policial decidir se a valise torna o homem mais ou menos suspeito.<\/p>\n<p>Sem mencionar que dados prim\u00e1rios podem conter erros ou faltar informa\u00e7\u00f5es vitais para uma previs\u00e3o correta.<\/p>\n<p><strong>O copo est\u00e1 meio cheio ou vazio?<br>\n<\/strong>Resultados tamb\u00e9m podem n\u00e3o ser muito transparentes, podendo ser interpretados erroneamente. N\u00fameros podem ser subjetivos e duas pessoas diferentes podem interpret\u00e1-los de maneiras completamente diferentes. 30% de chance \u00e9 muito ou pouco? A interpreta\u00e7\u00e3o pode variar entre \u201cmuito provavelmente n\u00e3o\u201d para \u201cprovavelmente sim\u201d dependendo de diversos fatores imprevis\u00edveis.<\/p>\n<p>Para piorar, esse resultado pode ser usado como uma m\u00e9trica para competi\u00e7\u00e3o: apesar da baixa probabilidade de uma pessoa ser condenada a um crime, isso pode ser usado para fazer com que essa pessoa seja descartada de um j\u00fari, por exemplo.<\/p>\n<p>Outro exemplo de uso para esses algoritmos \u00e9 para a manuten\u00e7\u00e3o de sigilo, ao mensurar a probabilidade de uma pessoa divulgar informa\u00e7\u00f5es. E j\u00e1 que o que n\u00e3o falta \u00e9 gente procurando emprego, os contratantes est\u00e3o mais do que felizes em diminuir a competi\u00e7\u00e3o por meio desse crit\u00e9rio, mesmo que o valor n\u00e3o esteja muito acima da m\u00e9dia, ou tenha varia\u00e7\u00f5es significativas.<\/p>\n<p>\u00a0<\/p>\n<blockquote class=\"twitter-pullquote\"><p>Problema do #BigData que precisam de corre\u00e7\u00e3o<\/p><a href=\"https:\/\/twitter.com\/share?url=https%3A%2F%2Fkas.pr%2Fw5Gx&amp;text=Problema+do+%23BigData+que+precisam+de+corre%C3%A7%C3%A3o\" class=\"btn btn-twhite\" data-lang=\"en\" data-count=\"0\" target=\"_blank\" rel=\"noopener nofollow\">Tweet<\/a><\/blockquote>\n<p><strong>Sem preconceito?<br>\n<\/strong>Considerando todos os problemas mencionados, podemos afirmar que uma das vantagens mais conhecidas do Big Data n\u00e3o \u00e9 completamente livre de preconceitos. Uma decis\u00e3o tomada por um ser humano baseada em probabilidades calculadas por um algoritmo ainda \u00e9 uma decis\u00e3o tomada por um ser humano. Ela pode ou n\u00e3o ser livre de preconceitos. O problema \u00e9 que, com essa obscuridade ao redor do algoritmo e dados opacos, voc\u00ea n\u00e3o consegue diferenciar a \u201cqualidade\u201d da tomada de decis\u00e3o. N\u00e3o \u00e9 como se isso fosse mut\u00e1vel, j\u00e1 que est\u00e1 no c\u00f3digo fonte de um software.<\/p>\n<p><strong>Bem-vindo ao Lado Negro, Anakin<br>\n<\/strong>Algoritmos de previs\u00e3o tamb\u00e9m s\u00e3o vulner\u00e1veis aos ciclos de feedback e previs\u00f5es \u201cautorrealiz\u00e1veis\u201d. Um <a href=\"http:\/\/www.theverge.com\/2014\/2\/19\/5419854\/the-minority-report-this-computer-predicts-crime-but-is-it-racist\" target=\"_blank\" rel=\"noopener nofollow\">algoritmo usado pelo departamento de pol\u00edcia de Chicago<\/a> pode identificar uma crian\u00e7a como potencialmente perigosa. A partir da\u00ed um policial passa a ficar de olho nela, fazendo visitas ao domic\u00edlio e a monitora constantemente. Crian\u00e7as se veem tratadas como criminosos, e come\u00e7am a agir de acordo. Eventualmente, esse adolescente termina como membro de uma gangue, simplesmente porque se viu ofendido pela pol\u00edcia.<\/p>\n<p>Whitney Merril em sua palestra \u201c<a href=\"https:\/\/www.kaspersky.com\/blog\/tag\/32c3\/?_ga=1.79387219.675378529.1455570159\" target=\"_blank\" rel=\"noopener nofollow\">Prevendo Crime no Mundo do Big Data<\/a>\u201d no Congresso Chaos Communication 32, prop\u00f4s que n\u00e3o \u00e9 porque um policial est\u00e1 em uma \u00e1rea em que o algoritmo afirma ter mais de 70% de chance de encontrar um assaltante que ele realmente encontrar\u00e1.<\/p>\n<p><strong>Sem sa\u00edda<br>\n<\/strong>Caso um governo ou empresa empregue algoritmos de Big Data e isso n\u00e3o o agrada, n\u00e3o \u00e9 claro suficiente se voc\u00ea pode simplesmente sair dessa situa\u00e7\u00e3o. Talvez voc\u00ea n\u00e3o seja consultado, se efetivamente deseja fazer parte de uma pesquisa com Big Data. Sendo bem sincero, provavelmente voc\u00ea nem ser\u00e1 se fizer parte.<\/p>\n<p>N\u00e3o me entenda mal: n\u00e3o estou dizendo que todas as falhas mencionadas acima s\u00e3o motivos para rejeitar os algoritmos de previs\u00e3o. O Big Data s\u00f3 est\u00e1 ganhando mais espa\u00e7o e veio para ficar. Talvez seja a hora certa para consertar os problemas apontados nesse artigo, antes que seja tarde demais.<\/p>\n<p>Dev\u00edamos tornar os algoritmos e dados prim\u00e1rios mais transparentes e protegidos, garantir aos pesquisadores independentes acesso aos c\u00f3digos fonte, definir legisla\u00e7\u00f5es espec\u00edficas, informar as pessoas a respeito dessa matem\u00e1tica toda. S\u00f3 assim que poderemos aprender com nossos erros.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>O Big data tem sido alvo de debates nos \u00faltimos anos. Essas discuss\u00f5es est\u00e3o normalmente centradas nas imensur\u00e1veis oportunidades da tecnologia. No entanto, o\u00a0resultado dessas conversas pode ser um pouco<\/p>\n","protected":false},"author":421,"featured_media":6272,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[14],"tags":[630,53],"class_list":{"0":"post-6271","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-news","8":"tag-big-data","9":"tag-privacidade"},"hreflang":[{"hreflang":"pt-br","url":"https:\/\/www.kaspersky.com.br\/blog\/nine-big-data-issues\/6271\/"},{"hreflang":"en-us","url":"https:\/\/usa.kaspersky.com\/blog\/nine-big-data-issues\/6929\/"},{"hreflang":"es-mx","url":"https:\/\/latam.kaspersky.com\/blog\/nine-big-data-issues\/6890\/"},{"hreflang":"es","url":"https:\/\/www.kaspersky.es\/blog\/nine-big-data-issues\/8022\/"},{"hreflang":"it","url":"https:\/\/www.kaspersky.it\/blog\/nine-big-data-issues\/7813\/"},{"hreflang":"ru","url":"https:\/\/www.kaspersky.ru\/blog\/nine-big-data-issues\/11411\/"},{"hreflang":"x-default","url":"https:\/\/www.kaspersky.com\/blog\/nine-big-data-issues\/11673\/"},{"hreflang":"fr","url":"https:\/\/www.kaspersky.fr\/blog\/nine-big-data-issues\/5450\/"},{"hreflang":"de","url":"https:\/\/www.kaspersky.de\/blog\/nine-big-data-issues\/7425\/"},{"hreflang":"ja","url":"https:\/\/blog.kaspersky.co.jp\/nine-big-data-issues\/10862\/"},{"hreflang":"ru-kz","url":"https:\/\/blog.kaspersky.kz\/nine-big-data-issues\/11411\/"},{"hreflang":"en-au","url":"https:\/\/www.kaspersky.com.au\/blog\/nine-big-data-issues\/11673\/"},{"hreflang":"en-za","url":"https:\/\/www.kaspersky.co.za\/blog\/nine-big-data-issues\/11673\/"}],"acf":[],"banners":"","maintag":{"url":"https:\/\/www.kaspersky.com.br\/blog\/tag\/big-data\/","name":"big data"},"_links":{"self":[{"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/posts\/6271","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/users\/421"}],"replies":[{"embeddable":true,"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/comments?post=6271"}],"version-history":[{"count":2,"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/posts\/6271\/revisions"}],"predecessor-version":[{"id":13199,"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/posts\/6271\/revisions\/13199"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/media\/6272"}],"wp:attachment":[{"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/media?parent=6271"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/categories?post=6271"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.kaspersky.com.br\/blog\/wp-json\/wp\/v2\/tags?post=6271"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}