Falhas que precisam ser corrigidas no Big Data

O Big data tem sido alvo de debates nos últimos anos. Essas discussões estão normalmente centradas nas imensuráveis oportunidades da tecnologia. No entanto, o resultado dessas conversas pode ser um pouco

O Big data tem sido alvo de debates nos últimos anos. Essas discussões estão normalmente centradas nas imensuráveis oportunidades da tecnologia. No entanto, o resultado dessas conversas pode ser um pouco assustador. A maioria das pessoas concorda que a potencialidade dos grandes volumes de dados armazenados é incrível, porém, como qualquer tecnologia emergente, há certos problemas.

Adeus, privacidade!
O primeiro problema associado com o Big Data é a privacidade.

O Big Data consiste em um grande conjunto de dados armazenados, e quanto mais privada a informação, mais eficientemente os algoritmos podem alcançar conclusões não tão óbvias. De maneira simples, dados privados são a mágica por trás do Big Data.

Pura ciência (só que não)
As pessoas consideram as soluções do Big Data como ciência. A questão é que os algoritmos estão mais para engenharia. Uma grande diferença.

Imagine colocar a física contra foguetes. A física é a ciência inquestionável, cada informação foi pesquisada e comprovada, na teoria e prática. Depois, foi verificada pela comunidade científica, simplesmente porque é assim que funciona.

No entanto, a ciência é um campo que está em constante construção. Qualquer fato pode ser verificado a qualquer momento por qualquer um que tenha interesse. E se qualquer problema for identificado ou uma nova teoria emergir, tudo se resume a uma discussão da comunidade científica.

Foguetes são estruturas de engenharia baseadas em princípios físicos. A história já nos provou que muito pode dar errado, caso o projeto não tenha sido conduzido com extremo cuidado. Ou ainda, se as condições não forem as ideais, o que no fim, resulta no mesmo, pois implica que a concepção não está boa para lidar com as condições, especialmente, as inesperadas.

Não tem discussão com números. Ou tem?
Uma das consequências dessa máxima é uma falsa autoridade. As pessoas têm de aceitar decisões de algoritmos do Big Data como confiáveis -a não ser por matemáticos que poderiam discutir e provar a incompetência de um modelo de algoritmo. Mas seriam eles realmente capazes?

Sem luz no fim do túnel?
Mesmo com conhecimento e experiência em matemática, caso você queira ver como aquele algoritmo funciona, dificilmente ganhará acesso. Isso se justifica pelo caráter comercial do software, com código fonte protegido. Pesquisadores desistem ao notar que não conseguirão dar uma olhada nesse tipo de coisa. Muitas empresas agradecem o contato e colocam o interessado para correr.

Cathy O’Neil, matemática e ativista de direitos humanos falou em sua palestra “Matemática: Arma de destruição em massa”, sobre as métricas de valor agregado que um algoritmo estabelece para a avaliação dos professores nos Estados Unidos.

“Tenho uma amiga diretora de uma escola em Nova York que queria entender o algoritmo. Ela está numa escola voltada para o ensino de ciências e matemática, o que a fez pensar que seria capaz de o entender. Quando ela pediu a informação ao departamento de educação, ouviu uma recusa baseada no fato de que se tratava de matemática pura”.

“Ela persistiu e finalmente recebeu um papel que me mostrou. Era abstrato demais para ter qualquer utilidade. Eu fiz então o pedido com base na lei de acesso a informação para obter o código fonte, o que foi negado. Mais tarde, descobri que o grupo de pesquisa em Madison, Wisconsin, encarregado pelo algoritmo, possui um contrato que protege seu código-fonte.”

“Ninguém no Departamento de Educação de Nova York entende o modelo, nenhum professor deve entender ou melhorá-lo, já que não é transparente o modo de funcionamento.”

O que fica dentro ou fora?
Já que algoritmos são opacos, os dados de entrada também são. Um operador de Big Data não consegue ter certeza sobre os dados que foram processados pelo algoritmo e quais não foram. Dessa forma, alguns dados podem afetar o resultado mais de uma vez, processado pelo algoritmo na primeira vez e uma segunda pelo operador. Ou ainda, dados importantes podem ser deixados de lado, caso o operador julgue que já foram incluídos.

Por exemplo, a polícia entra em uma vizinhança com altos índices de criminalidade. O software alerta que o homem tem 55% de chance de ser um criminoso. O homem carrega uma mala bem suspeita, mas o policial não tem certeza se o algoritmo já levou isso em conta. Dessa forma, fica a cargo do policial decidir se a valise torna o homem mais ou menos suspeito.

Sem mencionar que dados primários podem conter erros ou faltar informações vitais para uma previsão correta.

O copo está meio cheio ou vazio?
Resultados também podem não ser muito transparentes, podendo ser interpretados erroneamente. Números podem ser subjetivos e duas pessoas diferentes podem interpretá-los de maneiras completamente diferentes. 30% de chance é muito ou pouco? A interpretação pode variar entre “muito provavelmente não” para “provavelmente sim” dependendo de diversos fatores imprevisíveis.

Para piorar, esse resultado pode ser usado como uma métrica para competição: apesar da baixa probabilidade de uma pessoa ser condenada a um crime, isso pode ser usado para fazer com que essa pessoa seja descartada de um júri, por exemplo.

Outro exemplo de uso para esses algoritmos é para a manutenção de sigilo, ao mensurar a probabilidade de uma pessoa divulgar informações. E já que o que não falta é gente procurando emprego, os contratantes estão mais do que felizes em diminuir a competição por meio desse critério, mesmo que o valor não esteja muito acima da média, ou tenha variações significativas.

 

Sem preconceito?
Considerando todos os problemas mencionados, podemos afirmar que uma das vantagens mais conhecidas do Big Data não é completamente livre de preconceitos. Uma decisão tomada por um ser humano baseada em probabilidades calculadas por um algoritmo ainda é uma decisão tomada por um ser humano. Ela pode ou não ser livre de preconceitos. O problema é que, com essa obscuridade ao redor do algoritmo e dados opacos, você não consegue diferenciar a “qualidade” da tomada de decisão. Não é como se isso fosse mutável, já que está no código fonte de um software.

Bem-vindo ao Lado Negro, Anakin
Algoritmos de previsão também são vulneráveis aos ciclos de feedback e previsões “autorrealizáveis”. Um algoritmo usado pelo departamento de polícia de Chicago pode identificar uma criança como potencialmente perigosa. A partir daí um policial passa a ficar de olho nela, fazendo visitas ao domicílio e a monitora constantemente. Crianças se veem tratadas como criminosos, e começam a agir de acordo. Eventualmente, esse adolescente termina como membro de uma gangue, simplesmente porque se viu ofendido pela polícia.

Whitney Merril em sua palestra “Prevendo Crime no Mundo do Big Data” no Congresso Chaos Communication 32, propôs que não é porque um policial está em uma área em que o algoritmo afirma ter mais de 70% de chance de encontrar um assaltante que ele realmente encontrará.

Sem saída
Caso um governo ou empresa empregue algoritmos de Big Data e isso não o agrada, não é claro suficiente se você pode simplesmente sair dessa situação. Talvez você não seja consultado, se efetivamente deseja fazer parte de uma pesquisa com Big Data. Sendo bem sincero, provavelmente você nem será se fizer parte.

Não me entenda mal: não estou dizendo que todas as falhas mencionadas acima são motivos para rejeitar os algoritmos de previsão. O Big Data só está ganhando mais espaço e veio para ficar. Talvez seja a hora certa para consertar os problemas apontados nesse artigo, antes que seja tarde demais.

Devíamos tornar os algoritmos e dados primários mais transparentes e protegidos, garantir aos pesquisadores independentes acesso aos códigos fonte, definir legislações específicas, informar as pessoas a respeito dessa matemática toda. Só assim que poderemos aprender com nossos erros.

Dicas