Privacidade em sistema de recomendação

Origem: Wikipédia, a enciclopédia livre.

A privacidade em sistema de recomendação é um importante desafios éticos[1]. Os sistemas de recomendação tentam persuadir os usuários a comprar tal item, essa persuasão é feita pelos criadores dos programas. Embora muitas recomendação sejam certeiras e muito bem vindas, alguns métodos aplicados podem ser anti-éticos[2], pois colhem informações de seus usuários, de forma explícita ou implícita, podendo ferir sua privacidade, e executa algoritmos que inferem outros itens que um determinado usuário provavelmente tenha interesse, o que facilita para o usuário, visto que ele não tem que procurar algo dentre inúmeras possibilidades disponíveis. Além disso, tal recomendação é de forma personalizada, o que aumenta bastante a probabilidade deste item ser do gosto do usuário, aumentando o interesse deste em permanecer no site. Neste processo de recomendação, além das informações do usuário que receberá a recomendação, também são utilizadas informações explícita ou implícitas de diversos outros usuários, violando também a privacidade destes.

Tanto o site, quanto o usuário ganham com a recomendação, por exemplo, em um site de e-commerce o vendedor vende mais e mantêm o cliente no site, o comprador tem seu tempo de busca pelo produto reduzido e o produto que ele recebe como recomendação normalmente é um que realmente seja do seu interesse.

Exemplos de sistemas de recomendação[editar | editar código-fonte]

Os sistemas de recomendação são pervasivos: onde você estiver na Web, haverá um sistema de recomendação. Se comprando produtos, locando filmes, ouvindo música, em redes sociais de amizade, entre outros.[3] Recomendações estão sempre sendo feitas a partir de padrões de comportamento identificados para um determinado usuário.

Os sistemas de recomendação são usados em sites de diversos propósitos, como, por exemplo:

  • e-commerce: produtos são recomendados (exemplo: Amazon);
  • amizades: onde é recomendado um amigo (exemplo: Facebook);
  • acadêmico: onde é recomendado artigos e/ou co-autores (exemplo: Mendeley);
  • musical: músicas são recomendadas, baseada no perfil de seus amigos (exemplo: Last.fm);
  • filmes: filmes são recomendados (exemplo: Netflix);

Sistemas de Recomendação x Privacidade digital[editar | editar código-fonte]

Através dos sistemas de recomendação, é agregado valor ao relacionamento cliente e site. Os sites investem no aprendizado sobre os usuários para melhor o servir, personalizando seu atendimento (em relação à interface e produtos). O usuário optará pelo que melhor suprir suas necessidades. Quanto mais o usuário utiliza o sistema, mais informação estará sendo registrada para que o site seja moldado para o cliente, fazendo com que o cliente se torne fiel ao site. Mesmo que existam outros sites concorrentes, os clientes normalmente não irão querer mudar de site, pois terá que ensinar a outro site sobre ele, o que demandaria tempo. Sendo um usuário assíduo a um site, incentivaria outras pessoas a participar do site.

Alguns sistemas de recomendação apresentam, além da recomendação, explicações de como se chegou a tal recomendação. Para que um sistemas faça a devida recomendação, ele precisa de informações, sejam informações sobre a pessoa, sobre o item a ser recomendado, ou sobre os outros participantes do site. Neste contexto, alguns questionamentos começam a surgir por parte do usuário, como: como se chegou a tal recomendação? Quais informações minhas o sistemas está observando para se chegar a tal recomendação? Quais informações dos outros usuários estão sendo usadas para se chegar a tal recomendação? O que mais o sistema pode inferir sobre mim dentro das informações que eles já têm? Porque mapeando algumas informações que já se tem sobre mim, pode-se chegar a muitas outras. Quais informações sobre mim estão sendo usadas para fazer recomendações a outros usuários? Minhas informações estão sendo expostas, mesmo que de forma direta/indireta?

Entre outros questionamentos. A partir de tais perguntas, começa-se a pensar se a privacidade do usuário está sendo violada, se há privacidade digital. Ao responder os questionamentos apresentados, aponta-se para a violação da privacidade dos usuários. Acerca disso, muitos trabalhos já foram publicados[3][4][5][6][7] concluindo-se que muitas pessoas estão interessadas no risco de se perder a privacidade em sistemas de recomendação.

É mais barato manter um usuário do que conquistar outro,[8] por isso deve-se ter cuidado em relação ao conforto ou desconforto do usuário em relação a uma recomendação recebida, se o usuário sente que sua privacidade foi invadida ou não. Isso é importante, pois o marketing de pares (no processo “boca-a-boca”) pode acabar com a fama de uma empresa ou fazer com que outros adiram ao site. Usuários insatisfeitos podem fazer reclamações formais ou entrar com um processo contra a empresa.[8]

A privacidade também é hoje uma preocupação dos jovens, que são uma parcela importante dos consumidores atuais. Estudos mostram que os Centennials estão mais preocupados em terem comportamentos mais seguros e evitarem arriscar a própria privacidade online. No Brasil, 90% dos jovens se dizem preocupados com a segurança dos seus dados digitais e a sua privacidade na rede mundial de computadores, bem mais que a média mundial, de 76%.[9]

Obtendo informações do usuário[editar | editar código-fonte]

Sobre como os sites obtêm informações sobre o usuário, há duas formas[4]:

  • Identificação no servidor: em geral, é a área de cadastro, onde os usuários informam explicitamente suas informações, sentindo-se menos invadido, visto que as informações estão sendo cedidas com seu consentimento.
  • Identificação no cliente: as informações do cliente são guardadas através de cookies, o que diferencia um usuário de outro, diferenciando o IP. Apesar dos cookies não serem necessariamente ruins, é através deles onde pode haver a invasão de privacidade.

A coleta de informações implícita dos usuários através dos sites é o que gera alguns conflitos acerta da privacidade.

Tipos de Sistemas de Recomendação[editar | editar código-fonte]

Um sistema de recomendação pode ser classificado como[3]:

  1. Baseado em conteúdo: a recomendação é feita baseada no perfil do usuário e suas transações passadas, apenas. Esse tipo de recomendação não põe a privacidade do usuário em risco, já que não são utilizadas informações sobre o perfil e ações de outros usuários para realizar a recomendação. Por exemplo, o site Peixe Urbano, que apresenta diversas promoções ao usuário fazem isso baseado nos dados informados explicitamente pelo usuário, como por exemplo: cidade da oferta, categoria da oferta (gastronomia, turismo, moda etc.).
  2. Colaborativa: a recomendação é feita observando a relação entre itens baseado nas preferências de todos os usuários. Para um dado usuário, o sistema encontra outros usuários com um histórico de transações semelhantes. É neste tipo de recomendação onde pode ocorrer a violação de privacidade do usuário. Um exemplo é o MovieLens, onde os usuários inserem pontuações para os filmes e essa pontuação é utilizada para encontrar pessoas com gostos semelhantes, assim seria recomendado um filme já assistido por uma pessoa do grupo para outras do mesmo grupo que ainda não assistiu tal filme. Nota-se aí que informações de outras pessoas estão sendo usadas para recomendar algo a uma determinada pessoa. Semelhantemente o site da Livraria Cultura apresenta a recomendação de um determinado livro da seguinte forma: “quem comprou este produto também comprou...”.
  3. Híbrida: ambas as abordagens citadas anteriormente são usadas, como por exemplo o Last.fm.

Estratégias de recomendação[editar | editar código-fonte]

Também são observadas algumas estratégias de recomendação: (i) usuário-item: o sistema recomenda um item para um usuário baseado em seu perfil; (ii) usuário-usuário: o sistema ajuda o usuário a encontrar um usuário no qual ele tenha interesse; considerado um método invasivo; iii) item-item: dado um item, o sistema sugere itens semelhantes, ou seja, através do “quem comprou este item também comprou o item tal”. Um sistema de recomendação pode prover mais de uma forma de recomendação, como, por exemplo, o Last.fm, que faz recomendações item-item e usuário-usuário[3]: uma música semelhante às músicas que o usuário ouve; um usuário que tem um perfil musical semelhante ao dele. Embora algumas estratégias não sejam necessariamente invasivas em relação à busca pelo perfil de diversos usuários, acaba sendo invasivo quando os sites apresentam informações que não precisariam estar lá, como é o caso do Last.fm, onde é apresentado quantas vezes cada usuário ouviu a uma certa música.

Expondo o usuário[editar | editar código-fonte]

Devido à enorme quantidade de usuários nos sistemas e ao seu grande número de transações por usuário, pode-se pensar que não há como tirar informações significativas sobre transações de usuários específicos, o que é um engano.[3] Os sistemas de recomendação em muitas situações são considerados invasores de privacidade, devido à coleta e armazenamento de dados.[4] Para piorar, algumas empresas disponibilizam ou vendem seus bancos de dados para gerar estatística, entre outros, podendo muitos dados dos usuários serem cruzados e colher muitas outras informações sobre os usuários. Também pode aumentar a quantidade de spams. O ato de muitas empresas venderem seu banco de dados gera um desconforto para muitos compradores do e-commerce[10].

Frequentemente as listas de similaridade de itens estão presentes em sites que não tem a recomendação usuário-item, como: New York Times e CNN. A Amazon não apenas apresenta os itens mais populares, mas também apresenta a porcentagem de pessoas que comprou um outro item Y depois de ver o item X. O Last.fm apresenta o número de pessoas que ouviu a música e quantas vezes cada um a ouviu. O LibraryThing ao apresentar uma lista de livros em comum, também informa o número de usuário que tem ambos os livros.[3] O Twitter também disponibiliza uma API (Application Programming Interface) onde os programadores podem acessar todos as postagens com uma determinada palavra chave, e para cada pessoa que postou aquele comentário, é possível acessar as últimas postagens daquela pessoa, por exemplo.

Ataque à privacidade[editar | editar código-fonte]

A natureza do ataque à privacidade tem duas componentes:

  • Usar explicações das recomendações para deduzir conexões;
  • Combinando informações da conexão com outros dados para revelar detalhes pessoais do usuário [1].

Percebe-se que uma recomendação personalizada põe em conflito a personalização e a privacidade em sistemas de recomendação.[5] Portanto, um sistema de recomendação particular pode trazer benefícios e riscos à privacidade.

"Explicações em sistemas de recomendação provê a hackers uma chave de busca de informação que pode possibilitar buscas maliciosas. As explicações podem, então, revelar informações análogas àquelas providas pelas buscas de banco de dados estatísticos. Combinado a outros conhecimentos, a informação pode ser usada para identificar uma pessoa específica."[5]

Uma forma dos sistemas de recomendação colher dados é através do feedback apresentado pelos usuários. Por exemplo: no Netflix, a qualificação de filmes; no Facebook, informando se conhece ou não a pessoa quem está sendo reconhecida como conhecida, entre outros.

O risco de falta de privacidade aumenta quando aumenta a quantidade de qualificações em comum e a quantidade de pessoas em um grupo cresce muito (quando é utilizado o algoritmo de agrupamento, onde grupos são criados baseado nas similaridade dos envolvidos).[5]

Ainda, informações sobre o comportamento do usuário é constantemente vazado através de comentários públicos online em fóruns/postagens, bem como pessoalmente através de comentário de amigos, colegas de trabalho e conhecidos. Ou seja, a privacidade, seja on-line ou no mundo real, é difícil de ser mantida.[3]

Casos de invasão de privacidade[editar | editar código-fonte]

Em meados de 2009, dois pesquisadores da universidade do Texas descobriram muitas informações sobre os usuários do Netflix) a partir da base de dados disponibilizado pela própria empresa para o grande prêmio Netflix: onde o ganhador receberia um milhão de dólares. O vencedor deveria melhorar em pelo menos 10% o sistemas de recomendação já existente no site. A base de dados disponibilizada mantinha o anonimato dos usuários, o qual era representado por um identificador. Os pesquisadores do Texas identificaram muitos usuários do Netflix) comparando sua base de dados anônima com as informações do site Internet Movie Database. Tais informações revelavam tendências políticas e orientação sexual[11].

Em outro caso, o Netflix) foi processado por uma mãe, quando identificaram sua orientação sexual, a qual podia trazer problemas para a vida dela e da família. A ação judicial solicita à corte para que impossibilite o Netflix) a realizar seu segundo concurso.[11]

Privacidade e Legislação[editar | editar código-fonte]

A privacidade on-line diz respeito à privacidade para os dados dos usuários na Web. Embora alguns sites tenham sua política de privacidade, e que a Constituição Brasileira zele pela privacidade da pessoa e sua intimidade, muitos usuários tardaram a realizar algumas ações na Web, com receio da violação de sua privacidade.[4] Isso também se deu pelas dúvidas e incertezas em relação a diversas ações na Web.

As políticas de privacidade utilizadas por empresas que trabalham com sistemas de recomendação são importantes para assegurar ao usuário a proteção sobre seus dados, sendo esta uma exigência legal e a única forma da empresa passar segurança ao usuário, já que as leis de privacidade on-line ainda não são muito claras,[12] embora já existam alguns selos e a NRPOL.

A Norma de Referência da Privacidade Online (NRPOL) foi publicada no Brasil em junho de 2000, pela Fundação Vanzolini em parceria com a Universidade de São Paulo – USP. Algumas normas acerca dos dados dos usuários são: “o acesso completo do usuário às informações coletadas ao seu respeito; a garantia de que a informação recolhida é adequada e de que não será usada para propósitos diversos daqueles que motivaram o seu recolhimento; e (iii) a adoção, pela empresa recolhedora dos dados, de procedimentos que previnam danos e o uso, sem autorização de tais informações (p. 17)."[4]

Os selos para a Web, a exemplo do TRUSTe e do BBBOnline, fornecidos por grandes instituições, garantem que as políticas de privacidade, propostas por empresas, são cumpridas, embora questione-se a rigidez de seus padrões. Ainda assim, cresce o número de empresas que usam estes selos.[12]

Referências

  1. SCHAFER, J. Bem; KONSTAN, Joseph; RIEDL, John. [1999]. Recommender Systems in e-commerce. In: I ACM Conference on Eletronic Commerce (EC - 99), 1999. Denver, Colorado, USA. Processos. In: Anais... Nova Iorque: ACM, 1999. p. 158-166. Disponível em: <http://www.grouplens.org/node/227> Acesso em: 16 abr. 2013.
  2. BERDICHEVSKY, Daniel; NEUENSCHWANDER, Erik. [1999]. Toward an ethics of persuasive technology. 1999. Disponível em: <http://cseserv.engr.scu.edu/NQuinn/ENGR019_301Spring2002/ CACMEthics8.pdf>. Acesso em: 21 set. 2011.
  3. a b c d e f g CALANDRINO, Joseph A.; KILZER, Ann; NARAYANAN, Arvind; FELTEN, Edward W.; SHMATIKOV, Vitaly. [2011]. “You Might Also Like:” Privacy Risks of Collaborative Filtering, IEEE Symposium on Security and Privacy.
  4. a b c d e CARDOSO, Camila M.; REIMAO, Sandra; MARQUES, Jane. [2011]. Privacidade e ética nos Sistemas de Recomendação para e-commerce: uma breve reflexão, Mídia Cidadã.
  5. a b c d REMAKRISHNAN, Naren; KELLER, Benjamin J., MIRZA, Batul J., GRAMA, Ananth Y., KARYPIS, George. [2001]. Privacy Risks in Recommender Systems, Internet Computing IEEE.
  6. ARMKNECHT, Frederik, STRUFE, THorsten. [2011]. An Efficient Distributed Privacy-preserving Recommendation System. The 10th IFIP Annual Mediterranean Ad Hoc Networking Workshop.
  7. MCSHERRY, Frank; MIRONOV, Ilya. [2009]. Differentially Private Recommender Systems: Building Privacy into the Netflix Prize Contenders. KDD’09, June 28–July 1, 2009, Paris, France.
  8. a b BLACKWELL, R. D.; MINIARD, P. W.; ENGEL, J. F. [2008]. Comportamento do Consumidor. 9ª ed. São Paulo: Cengage Learning, 2008.
  9. «Kantar - Jovens brasileiros se preocupam com privacidade na web». br.kantar.com. Consultado em 22 de março de 2017 
  10. COSTA, Cristiane Salomé Ribeiro da; LUCIAN, Rafael. [2008]. A logística reversa e sua influência no risco percebido em um ambiente de compra. Revista de Administração da UNIMEP, v. 6, n. 2, p. 103-121, mai/ago 2008. Disponível em: <h ttp://raunimep.com.br/ojs/index.php/ regen/article/view/40 >. Acesso em: 16 abr. 2013.
  11. a b SINGEL, Ryan. [2009]. Netflix Spilled Your Brokeback Mountain Secret, Lawsuit Claims. 2009. Disponível em: <http://www.wired.com/threatlevel/2009/12/netflix-privacy-lawsuit/>. Acessado em 16 abr. 2013.
  12. a b CAZELLA, Sílvio César; NUNES, Maria Augusta S. N.; REATEGUI, Eliseo Berni. [2005]. A Ciência da Opinião: Estado da arte em Sistemas de Recomendação, In: XXV Congresso da Sociedade Brasileira de Computação, São Leopoldo, 2005.