Vigilância cega, o que as pegadas digitais podem revelar sobre o indivíduo

Por João Carlos Rebello Caribé

Este trabalho foi apresentado no II Seminário Internacional Network Science em Novembro de 2018.

O artigo completo pode ser acessado nos anais do evento ou no ResearchGate.


Resumo

Quando se fala em vigilância, logo vem a mente a imagem de uma câmera, um observador por trás dos monitores. É um modelo naturalizado no século XX, que com o advento do big data, está se tornando obsoleto.

O modelo de vigilância do Panóptico de Benthan, descrito por Foucault (2014) em “Vigiar e Punir”, se baseia no par ver-ser-visto, a partir de um ponto de observação central, com o vigilante tendo ampla visão do vigiado e este nenhuma visão do vigilante, presumindo assim a sua vigilância.

Com a emergência da mobilidade e do capitalismo de vigilância (Shoshana Zuboff, 2015), surgiram novas sistematizações de modelos de vigilância. Zigmunt Bauman (2013) em “Vigilância Líquida”, apresenta o modelo do Panóptico pessoal, onde o indivíduo torna-se vigilante de si e seus pares, carregando seu próprio Panóptico, materializado como seus smartphones e dispositivos conectados. O que Bauman descreve, dialoga com o que Fernanda Bruno (2013), em “Máquinas de ver, Modo de Ser. Vigilância Tecnologia e Subjetividade” descreve como Vigilância Distribuída, que tira a centralidade da vigilância, principal característica do Panóptico.

Sandra Braman (2006) no livro “Change of State – Information, Policy, and Power”, apresenta o Panspectro, como o modelo de vigilância adequado ao advento do big data. Segundo a autora, o foco do Panspectro não é o indivíduo em particular, seu foco está nos dados, e sua ação focal se dá em resposta a padrões.

O volume de dados produzidos voluntária e involuntariamente, pelo indivíduo, na Internet configuram o novo petróleo, o Facebook, por exemplo, teve uma receita bruta de U$ 40,6 bilhões em 2017, Alphabet, holding da Google, faturou U$ 110 bilhões, no mesmo período.

Panspectros, treinados com modelos, através de machine learning, constroem a partir dai, por deep learnig, padrões sofisticados, que respondem de forma lateral, distinta da lógica humana, com extrema precisão a perguntas feitas na tela panspectral. Yoyou Wu et al (2015) demonstra em “Computer-based personality judgments are more accurate than those made by humans” como os julgamentos baseados em computador são mais precisos que os feitos por humanos.

As pegadas digitais que o indivíduo produz permitem produzir informações valiosas de sua individualidade, seus gostos, temores, e até revelar seus mais sombrios segredos.

Slides

Uma breve história do Capitalismo de Vigilância

Por João Carlos Rebello Caribé

Esta breve história do capitalismo de vigilância é uma continuação do texto “Redação ENEM 2018: Dados, algoritmos e comportamento“, espero que seja útil de alguma forma.

Era uma vez…

Na primavera de 1994, antes mesmo da Internet se tornar comercial, Nicholas Negroponte do MIT estava pensando sobre a oferta massiva de canais na TV a cabo Americana. Ele imaginava que era impossível para o usuário escolher bons programas apenas com o controle remoto, uma solução era escolher a programação nas revistas mensais enviadas pelas operadoras de TV a cabo. Mas Negroponte, que é um futurista, imaginava uma TV inteligente, que aprenderia o gosto do usuário e ofereceria a ele a melhor programação sem que ele tivesse que se preocupar com isto. Esta ideia se desenvolveu para o que Negroponte chamava de “agentes inteligentes”.  No rastro desta ideia a Microsoft lançou o “Bob” e a Apple o “Newton” dois agentes inteligentes que foram um fracasso tremendo!

Se você levar em consideração que um iPhone 5 tem 26 vezes mais velocidade de processamento que os computadores topo de linha de 1995, deve imaginar que produzir programas de computador sofisticados, como um assistente pessoal, não era tarefa das mais fáceis. Alias que tal dar uma olhada na cara do Microsoft Bob no vídeo a seguir.

Microsoft Bob

As coisas mudaram rapidamente de 1995 para cá, em 1997 Jeff Bezos da Amazon já tinha vendido livros à um milhão de clientes. A Amazon desenvolveu uma solução de relevância com base nos dados dos clientes: que livros procuravam, compravam, colocavam em lista de desejos. Era o primeiro “agente inteligente” que realmente funcionou. Bezos baseou seu método de relevância no livreiro do bairro, que conhece o interesse de cada cliente.

O Google, dois anos depois, criou o conceito de “PageRank“, que estabeleceu um critério de pontuação para cada página na Internet, em função de diversas variáveis, como a quantidade e qualidade dos links que apontam para determinado site, e também inclui o conceito de que cada usuário teria uma expectativa diferente, baseado no histórico de pesquisa, sua localização, a partir de que dispositivo está pesquisando, e etc…

Vamos falar de cookies?

Com certeza você já deve ter ouvido falar em cookie, já devem ter pedido para você limpar os cookies, ou hoje em dia deve ter entrado em sites que avisam que usam cookies e pedem para você aceitar. O conceito de cookie vem desde 1994, quando os navegadores de Internet surgiram. O cookie é um pequeno arquivo de dados, com até 4Kb que o navegador grava no seu computador, a pedido de cada site que visita. Por exemplo este site grava um cookie no seu computador, todos os demais fazem isto, cookies são do bem, eles servem para saber se você esta visitando um site pela primeira vez ou se está retornando, que páginas visitou,  ou quando você faz login em um site ele grava um código no cookie enquanto durar seu login, ou quando você está fazendo compras, ele guarda um identificador, que permite resgatar sua listas de compras.

Existe uma regra importante que diz que os cookies só podem ser lidos e gravados pelo endereço de internet que o gerou. Então nos só temos acesso aos cookies gravados por “pesquisa.wazushi.com.br”, o Google por “google.com”, e assim vai, mas ai as coisas mudaram, conseguiram burlar a regra…

Da Internet da pedra lascada à Internet de hoje

Até 1999 as pessoas, no Brasil, acessavam a Internet a partir de um computador fixo e usando um modem que discava para o provedor, é isso mesmo, discava. E o modem mais rápido era o de 56Kbps, sabe quando seu plano de dados do celular termina e a Internet fica beeeeemm lenta? Então esta era a velocidade normal da Internet na época. Além do provedor de acesso, tínhamos de pagar a ligação telefônica, se ficássemos conectados muito tempo, a conta de telefone vinha uma fortuna. Mas a partir da meia noite, ou no domingo, ou a partir das 14h de sábado, podíamos ficar conectados o tempo que quiser pagando apenas um pulso telefônico. Isto explica porque seus pais, tios ou irmãos mais velhos falavam que viravam a noite na Internet.

Quer saber como era nesta época?

A partir de 2000, o acesso banda larga chegou nas principais capitais do Brasil, estar conectado 24h por dia, 7 dias por semana, era uma prática que ninguém estava acostumado, mas aos poucos fomos nos acostumando e mudando nossos hábitos na grande rede.  Antes as redes sociais eram os fóruns online e as listas de discussão por e-mail. A tecnologia avançou, a capacidade de processamento e memória dos computadores melhorou bastante, permitindo aos navegadores executarem programas em JavaScript cada vez mais complexos, permitindo uma série de atividades que antes não eram possíveis.

Quando tudo começou a mudar…

Em 2003, o Google lançou um sistema de publicidade contextualizada chamado AdSense, com ele qualquer site poderia exibir publicidade automática. Este sistema tornou-se a principal fonte de renda da maioria de sites e blogs, praticamente hoje em dia quase todo site tem publicidade AdSense. O AdSense usava um sofisticado algoritmo (programa) em JavaScript que lia o conteúdo da página que estava sendo exibida, e apresentava publicidade de acordo com o seu conteúdo.

Junto com o AdSense o conceito de tracker cookie, ou apenas tracker, ganhou força. O tracker é um cookie como qualquer outro, gravado pelo Google, neste caso, mas o que faz dele um cookie tracker, é um importante detalhe. Quando alguém exibe uma publicidade do Google AdSense no seu site, ele insere um código que permite que o domínio do Google (google.com) tenha acesso ao cookie dele, porém sabendo qual site o requisitou. Se tivéssemos publicidade AdSense, o Google saberia que você visitou este site, que páginas viu, quanto tempo ficou em cada uma. E se depois você visitar outro site que tenha AdSense, ele também fará o mesmo com o outro site. Então este cookie do Google permite rastrear (tracker) sua navegação na Internet. Lembra que falei lá em cima que conseguiram burlar a regra do cookie? Pois é…

A figura abaixo mostra como se dá todo o processo,  na direita,  o seu computador, quando você acessa um site ele envia um conjunto de informações conhecidas por cabeçalho HTPP, que tem o tipo e versão do navegador, seu número de IP, modelo do computador, versão do sistema operacional, tamanho da tela, que plugins estão habilitados, e mais alguns dados. No lado esquerdo o servidor que devolve o conteúdo solicitado, e requisita os cookies, que depois ele devolve para ser gravado. Quando o site tem um anuncio, todo processo se repete também com o domínio do anunciante.

Como o AdSense ou qualquer anunciante faz o tracker

É por causa do “tracker” que você visualiza publicidade em outros sites de produtos que acabou de pesquisar em uma loja virtual. Esta prática é chamada de remarketing, um serviço que o Google oferece à estas lojas para recuperar uma venda que você desistiu.

Foi em 2004, quando o Google criou o Orkut e o Gmail que as coisas começaram a mudar profundamente. Agora o Google poderia rastrear toda atividade de um usuário logado. Se ele tivesse uma conta no Orkut, ou no Gmail, ele poderia associar todo seu rastro digital à sua conta. Ou seja, o usuário anônimo agora tinha nome, gênero, idade, cara, hábitos, e relacionamentos sociais!

O Facebook, apesar de ter sido lançado em 2004, se tornou popular no Brasil somente a partir de 2011. Esta e outras aplicações e tecnologias podem ser vistas na linha do tempo abaixo

LInha do tempo das tecnologias da Internet

O capitalismo de vigilância

Estava inaugurado o Capitalismo de Vigilância, a partir deste ponto a corrida para obter cada vez mais dados dos usuários, significava mais lucro, e que lucro! Em 2017 o Facebook teve uma receita bruta de U$ 40,6 bilhões, e a Alphabet, holding da Google, faturou U$ 110 bilhões, no mesmo período. Você e mais alguns bilhões de pessoas foram responsáveis por este lucro…

A Mobilidade possibilitou o grande salto no capitalismo de vigilância, graças aos smartphones que se tornaram populares no Brasil a partir de 2015 (figura abaixo). A mobilidade passou a permitir o uso continuado da Internet, e a partir de qualquer lugar. Novos dados passaram a ser obtidos a partir da possibilidade dos aplicativos como o Facebook, WhatsApp, Instagram e muitos outros, poderem acessar sensores e funcionalidades do smartphone.

Fontes: IBOPE inteligência, Deloitte, Teleco

O aplicativo do Facebook, segundo o estudo do ShareLab, acessa 43 funções e sensores do seu smartphone, incluindo, microfone, câmeras, GPS, agenda de telefone, seu histórico de ligação telefônica, dados da conexão. O WhatsApp, Instagram, e o Messenger não ficam muito atrás.

A coleta massiva de dados pelo capitalismo de vigilância, passou a permitir a modelagem de dados, e construções de padrões em larga escala, como descrito no texto “Seus dados são você, Facebook“.

Para você ter uma ideia, assista ao video abaixo, produzido pela Panoptykon Fundation com base no estudo do ShareLab, sobre como o Facebook, obtém e trata seus dados para criar o feed de noticias que você acessa.

Novos desafios

Alguns temas relevantes para a sociedade estão sendo pesquisados pela Academia. Em primeiro lugar é importante determinar a relação entre os benefícios e os riscos das práticas do capitalismo de vigilância, também conhecido por capitalismo de dados. Vejamos alguns desafios que estão em destaque.

Distorções da realidade

As relações sociais mediadas por algoritmos, podem produzir distorções da realidade, tomemos a figura abaixo para ajudar a descrever esta questão, tendo o Facebook como o foco do estudo.

Modelo conceitual da medição algoritmica

Na figura temos a informação, o mediador e o indivíduo. A informação é tudo que é compartilhado por qualquer indivíduo. O indivíduo é qualquer pessoa que usa o Facebook, você, seus amigos, e “amigos” do Facebook, e até mesmo pessoas que você não conhece. O mediador neste caso, são os conjuntos de algoritmos do Facebook que a partir dos dados que ele obtém de você, da informação e de seus amigos, decide que informação vai lhe exibir. Ou até mesmo quais dos seus amigos ele vai mostrar para você. Ou seja o mediador decide com quem você vai se relacionar e que informação é relevante para você. Neste processo o mediador do Facebook cria uma “bolha de realidade” entre você e seus amigos, que por se relacionarem dentro desta “bolha”, acreditam que todo mundo pensa igual. Esta é uma das razões, mas não a única, que explicam a crescente onda de intolerância que envolve a sociedade.

Morte da criatividade e da diversidade

Um outro problema relacionado às “bolhas de realidade” descritas acima, é a morte da criatividade e da diversidade. Com pessoas se relacionando através do mediador algorítmico, com outras pessoas que pensam iguais a ela, o diverso, o inovador deixam de existir e o mundo caminha para a existência de vários núcleos de unanimidade. Isto pode significar não só a morte da criatividade, como do pensamento crítico. E a partir deste ponto a humanidade irá retroceder, se é que já não esteja retrocedendo.

Perda da autonomia

Quem não fica doido se esquecer o celular em casa? Dá uma sensação de impotência e insegurança? Isto porque você esta se tornando dependente do smartphone e seus incríveis aplicativos. É aplicativo para se relacionar com os amigos, para ajudar a escolher com quem vai “ficar”, para onde ir, por qual caminho. Podemos não perceber, mas estamos perdendo elementos e práticas importantes que ajudam em nosso processo decisório. Isto vai refletir inclusive no seu trabalho futuro, como serão as decisões no trabalho? Serão delegadas aos dispositivos computacionais e seus aplicativos?

Perda completa da privacidade

As pessoas não parecem muito preocupadas com a sua privacidade, é fato que vivemos hoje um novo referencial de privacidade, onde é normal compartilharmos informações, imagens e pensamentos que seriam inadmissíveis há algumas décadas.  Mas a preocupação está com as informações que são compartilhadas involuntariamente, que permitem dizer muito sobre nós, pense na possibilidade assustadora descrita no texto “Como seria uma ditadura no Brasil de hoje“.

Perda da noção da realidade

Para além das distorções da realidade, a exploração dos perfis psicométricos dos indivíduos, a partir de seus dados, para envio de informações direcionadas como fez a Cambridge Analitica, permitem induzir consensos artificiais.  A manipulação da realidade através das fake news (desinformação) levou ao estudo da chamada “pós verdade”. As deep fakes, que são manipulações realísticas de vídeo e/ou voz nos levam a um novo patamar que é  a “pós realidade”. E agora com base nos perfis e dados dos indivíduos, já existem estudos demonstrando ser possível criar falsas memórias, criando o “pós passado”.

Governança de algoritmos

Um importante freio nestes riscos tem surgido com a proposta de Governança de Algoritmos,  onde a política de proteção de dados pessoais esta no centro da sua  estratégia. A comissão Europeia é pioneira, e já possui um marco legal na proteção de dados pessoais conhecida por GDPR. No Brasil, a Lei Geral de Proteção de Dados Pessoais (LGPDP) foi sancionada este ano, mas só entra em vigor em 2020, e ainda tem falhas por não ter definido o comitê regulador, o comitê que irá fiscalizar a aplicação da lei.

Divulgação Científica Universal

Uma outra importante estratégia esta na divulgação científica, o conhecimento dos riscos e benefícios são a melhor forma de proteger a sociedade, e fecho este artigo com meu manifesto pela divulgação científica universal. 

Nos da academia temos de compreender e assumir nossa responsabilidade sobre o futuro da humanidade frente a dicotomia beneficio x ameaça da tecnologia. Seja através do estabelecimento de limites éticos nos resultados e na utilização de nossas pesquisas. Seja através da divulgação científica ampla geral e irrestrita, adequando seu trabalho ao público alvo, abolindo o formalismo, e buscando formas de explica-lo ao mais humilde cidadão