Início Artigos Usuário anônimo no Twitter

Usuário anônimo no Twitter

06 dez. 2017 13 min(s) de Leitura

Pontos Principais

Este artigo explora três objetivos de pesquisa: Medir quantos usuários do Twitter adotam pseudônimo anônimo, medir correlações entre conteúdo sensível e usuários anônimos e determinar se é possível construir classificadores automáticos que podem identificar contas sensíveis no Twitter.
Para medir a predominância das contas anônimas Twitter foram aleatoriamente selecionados 100.000 contas do dataset público do Twitter de 2010, contendo 41,7 milhões de contas. Para a classificação foi utilizada a Amazon Mechanical Turk.
Para avaliar se a sensibilidade do conteúdo corresponde com usuários que escolheram o anonimato, foram selecionados diversos tópicos em múltiplas categorias consideradas sensíveis e/ou controversas.
Em um período de 5 anos os pesquisadores usaram três bases de dados que foram analisadas em diferentes pontos. Além do anonimato existente nas contas do Twitter, os relacionamentos entre contas anônimas e sensíveis não mudaram nos diferentes datasets.

Este artigo apareceu primeiro na revista IEEE Seguranca / Privacidade. IEEE Seguranca / Privacidade oferece sólidas informações sobre questões estratégicas atuais em tecnologia revisadas em pares. Para conhecer os desafios de atuais confiáveis, empresas flexíveis, gerentes de TI e líderes técnicos baseados em soluções de TI Pro no estado da arte.

A proliferação da internet resultou no crescimento das redes sociais e fóruns de discussão. Para participar os usuários normalmente são obrigados a criar uma conta e adotar uma identidade online. Frequentemente serviços diferem nos requisitos exigidos para novos usuários. Por exemplo, o Facebook tem uma política de nomes reais, que obriga usuários a fornecer nomes verdadeiros quando criam contas.

As razões para a inclusão destas políticas são o aumento da autenticidade e melhora a qualidade do conteúdo (Isso também ajuda a reduzir o número de spam, bullying e hacking). Entretanto, defensores da privacidade reclamam que a política de utilização de nomes reais online fere a liberdade por deixar os serviços vinculados aos interesses dos usuários (refletido pelas ações dele online) ligados aos nomes deles, gerando assim informações preciosas.

O Twitter, por outro lado, embora exija que se crie um pseudônimo único, não obriga os usuários a fornecer seu nome real. Usando pseudônimos sem relacionamento com nome real ele deixa os usuários realmente anônimos (isto é, anônimo para outros usuários do serviço, não necessariamente para o provedor do serviço). A ausência da política de nomes reais fez o Twitter tornar-se um portal popular para a troca de informações onde usuários podem compartilhar e acessar sem serem identificados.

O anonimato, online e offline, tem sido amplamente estudado. Aqui, focamos especificamente em como este anonimato influencia o comportamento de usuários nas redes sociais. Conduzimos uma análise orientada a dados em larga escala no Twitter para identificar a predominância de usuário relacionado com conteúdo sensível (Para aprender mais sobre os três datasets do Twitter que utilizamos veja o quadro ao lado). Nós também exploramos a viabilidade de sistemas automatizados que nivelam os padrões de usuários anônimos para ajudar a identificar conteúdo sensível.

Através do nosso trabalho, esperamos desenvolver um profundo entendimento sobre a importância e a função do anonimato para sociedade, guiar o desenvolvimento de novas características de privacidade e anonimato existentes em futuras redes sociais online, além de, descobrir potenciais tópicos sensíveis ou controversos em redes sociais. Para facilitar a leitura iremos utilizar o termo anônimo empregado aqui com sentido comum da palavra, ao invés do pseudônimo obscuro.

Conta básica no Twitter

Toda conta do Twitter contém 4 principais partes de informação:

Um perfil em que o usuário fornece detalhes, incluindo ID alfanumérico que identifica a conta conhecido como nome da tela; campo de nome, que normalmente contém o nome e sobrenome do usuário; uma foto do perfil; e uma URL, que pode ser linkada com perfil de outra rede social. Perceba que os detalhes fornecidos no perfil não precisam ser verdadeiros. Por exemplo, o campo nome poderia ser preenchido com o nome falso, sobrenome falso ou ambos falsos.

Uma lista de tweets ou mensagens postadas pelo usuário.

Uma lista de amigos. Quando um usuário segue ou se torna "amigo" de outro, ele ou ela recebe tweets atualizados daquele amigo. Este relacionamento é unidirecional. Se Alice é amiga de Bob, Bob não precisa ser amigo de Alice.

Uma lista de seguidores. Sao outros usuários que recebem todos os tweets atualizados do usuário da conta, os chamados "Seguidores".

Nosso trabalho

Para medir a predominância das contas anônimas no Twitter, foram aleatoriamente selecionados 100,000 contas do dataset público do Twitter de 2010 contendo 41,7 milhões de contas. Depois de eliminar todas a contas desativadas, contas cujo idioma não seja Inglês, contas spam e contas inativas / efêmeras, passamos um dataset de 50,173 para Amazon Mechanical Turk (AMT) para classificação.

Classificando contas do Twitter

Fornecemos cada nome de conta e de tela do Twitter para os trabalhadores AMT, perguntando qual dos dois campos coletivamente tinha somente o primeiro nome, somente o sobrenome, ambos ou nenhum dos dois. Além disso, os trabalhadores também poderiam indicar aqueles dos quais não tinham certeza. Baseados nesta seleção AMT colocamos cada conta em uma das seguintes categorias.

Anônima - uma conta do Twitter sem nome, sobrenome e URL no perfil (A URL poderia indicar uma página com informações parciais e até mesmo completas sobre o usuário);
Parcialmente anônima - conta do Twitter com o nome ou sobrenome;
Identificável - conta do Twitter com ambos, nome e sobrenome do usuário; ou
Desclassificada - Qualquer conta do Twitter que não cai em nenhuma das categorias acima, como contas com URL mas sem nome ou sobrenome, organizacional ou empresariais.

Perceba que é difícil remover completamente o ruído na classificação de usuários. Por exemplo, uma pequena fração de contas identificadas como anônimas podem não sê-lo completamente se o usuário fornecer fotos identificáveis ou divulgar nomes em tweets. Além disso, uma fração de contas identificáveis podem ter sido efetivamente anônimas porque usuários forneceram nome e sobrenome falsos.

Quantificando usuário anônimo

Constatamos que 6% das contas analisadas eram anônimas, já que não foram divulgados nome ou sobrenome. Outros 20% eram parcialmente anônimas, divulgando somente o nome ou sobrenome. Isso mostra que anonimato online é importante para pelo menos ¼ da população do Twitter e uma política que deixa de exigir o nove real pode ser um forte indício para a venda da rede social. Do restante das contas, 6% foram desclassificadas e 68% eram identificáveis. Claro, que neste último caso alguns usuários identificáveis podem ter usado nome e sobrenome falso, logo, seriam anônimos. Isto mostra que 26% de usuários na categoria que não divulga a identidade no Twitter foi abaixo do estimado.

Usuário anônimo e conteúdo sensível

Avaliando se o conteúdo sensível se relaciona com usuários que preferem estar anônimos, selecionamos diversos tópicos em múltiplas categorias consideradas sensíveis e/ou controversas como: pornografia, serviços de acompanhantes, orientação sexual, preconceito religioso e racial, drogas e armas. Para comparar também escolhemos diversas categorias não-sensíveis como: sites de notícias, recreação familiar, cinema e teatro, infantil além de empresas e organizações que produzem conteúdo familiar. Para cada categoria identificamos poucos termos de busca distintos e selecionamos manualmente contas que apareceram quando pesquisamos aqueles termos na página do Twitter.

Figura 1. Categorias sensíveis e não-sensíveis de contas no Twitter, organizadas em porcentagem decrescente de seguidores anônimos.

Selecionamos 50 contas do Twitter relacionadas às categorias sensíveis e 20 relacionadas com conteúdo não-sensível. A figura 1 mostra a porcentagem média de seguidores que estavam anônimos versus os identificáveis para cada categoria sensível e não-sensível. As categorias são organizadas da maior para menor porcentagem de seguidores anônimos.

Categorias sensíveis tiveram maior porcentagem de usuários anônimos: pelo menos 21.6% dos usuários seguindo pornografia, maconha, islamofobia e contas gays/lésbicas eram contas anônimas, tendo pornografia os maiores números de seguidores anônimos com 37.3%. Entretanto, algumas categorias sensíveis como supremacia branca e armas surpreendente tiveram alta porcentagem de seguidores identificáveis. Aparentemente alguns tipos de conteúdo sensível gera sigilo, enquanto outras encorajam maior abertura. Esta observação reafirma que conteúdo sensível tem nuances e é complexo.

Mesmo categorias não-sensíveis tiveram de 6.6% até 8.9% de seguidores anônimos. Esta observação confirma que usuários não criam perfil anônimo com o único propósito de seguir contas com conteúdo sensíveis. Para evitar manter múltiplos perfis, um usuário anônimo pode seguir ambas as contas sensíveis e não-sensíveis usando o mesmo perfil, postando seus interesses no Twitter.

Detectando contas sensíveis automaticamente

Um caminho para identificar contas sensíveis é especificar categorias de tópicos sensíveis, identificar palavras que normalmente aparecem quando discutimos estes tópicos e em seguida buscar tweets e contas que empregam estas palavras. Entretanto esta abordagem é altamente subjetiva porque isso depende de humanos para determinar a sensibilidade de tópicos e palavras.

Outra abordagem para aplicar técnicas de identificação automática como a alocação latente Dirichlet (LDA) para tweets. Ela permite identificar contas relacionadas com temas sensíveis. Entretanto, como técnicas são recursos altamente intensivos e não podem escalar ao tamanho do Twitter, investigamos os padrões do usuário anônimo que estávamos observando e se sua relação com conteúdo sensível poderia ser nivelado para desenvolver meios eficientes e automatizados de identificar contas que tuitam conteúdos sensíveis. Esta abordagem seria mais generalista e cobriria tópicos não previstos, não seria limitada por questões de idioma e poderia ser facilmente escalável.

Primeiramente consideramos o sub-problema de determinar automaticamente se uma conta do Twitter era anônima ou identificável. Confiamos nas contas anteriormente classificadas pelo Twitter para treinos. Pelo fato de contas anônimas e identificáveis se diferenciarem na presença de nome e sobrenome capturamos as listas públicas dos mesmos a partir do Censo dos EUA e da Social Security Administration. Entretanto, simplesmente verificando as ocorrências anônimas e identificáveis nas listas de nomes resultaram em taxas muito pobres. Então extraímos informações adicionais disponibilizadas por perfis no Twitter, como ranking de popularidade que mostram nome e sobre nome em listas públicas, texto de nome seguindo estrutura padrão como PrimeiroNome, NomeDoMeio e UltimoNome ("FirstName MiddleInitial LastName"), números de amigos, seguidores, tweets e assim por diante.

Usando estas características extraídas treinamos uma floresta aleatória baseada em machine learning mais sofisticada e anônima que precisamente detecta contas anônimas e identificáveis com mais de 90% de precisão. Depois disso, baseado na fração de seguidores anônimos e identificáveis detectados pelo nosso classificador anônimo acerca das conhecidas 70 contas sensíveis e não-sensíveis estudadas antes, desenvolvemos um máquina de suporte a vetor baseado em classificação de sensibilidade que pode separar contas sensíveis e não-sensíveis no Twitter.

Para o nosso teste de classificação de sensibilidade rastreamos o Twitter e capturamos exemplos aleatórios de 100,000 contas com aproximadamente 404 milhões de seguidores ativos. Aplicamos nosso classificador nestas contas rotulando os seguidores como anónimos ou identificáveis.

A inspeção manual mostrou que principais contas determinadas como sensíveis por nosso classificador estavam discutindo temas que muitos certamente consideram sensíveis como: pornografia, drogas e conteúdo adulto. Entretanto somados a estes suspeitos comuns, nossa abordagem deixou de de cobrir muitas contas relacionadas a temas desejados enfatizando que o anonimato tem muitos fins.

Por exemplo, identificamos muitas contas apoiando e lutando por lesbicas, gays, bissexuais, transgêneros e direitos homosexuais. Divulgar uma orientação sexual é uma questão sensível para muitos e portanto usuários podem preferir não se identificar. Encontramos contas onde usuários discutiam abertamente sobre relacionamentos e questões conjugais, compartilhando sentimentos ou experiências pessoais e questões de saúde. O anonimato pode oferecer oportunidades para pessoas pedirem ajuda ou encontrarem consolo.

Também descobrimos contas tratando sobre diversos casos de anorexia, ansiedade, depressão e tendências suicidas. Realmente algumas dessas contas postaram fotos depois de machucarem seus corpos. Enquanto estas contas possuem objetivos variados, instituições de saúde as estão utilizando como meio para chegar a pessoas que podem estar precisando de ajuda.

A existência de contas relacionadas com temas sensíveis, e o fato de elas terem muitos seguidores, suporta a tese de que privacidade e anonimato são importantes para nossa sociedade. Embora nossa metodologia de trabalho para identificar contas sensíveis no Twitter fornece escalabilidade e objetiva entender conteúdos sensíveis, pesquisas mais profundas são necessárias para melhorar as preferências de privacidade e expectativas no contexto da mídia social.

Por enquanto vale a pena explorar e quantificar quantas categorias de contas sensíveis são consistentes em diferentes aplicações sociais e quantos dependem da natureza da aplicação (como fotos compartilhadas versus mensagem). Esperamos que nossa pesquisa tenha contribuído para o melhoria de futuras políticas de privacidade e de controle.

Reconhecimentos

Este artigo é baseado em duas publicações anteriores do autor, "Na internet, ninguém sabe que você é um cachorro: Um caso de estudo sobre anonimato na rede social Twitter" (Proc. ACM Conf. Online Social Networks [COSN 14], 2014, pp. 83-94), e "Encontrando contas sensíveis no Twitter: Uma abordagem automatizada baseada em seguidores anônimos" (Proc. Int'l AAAI Conf. Web and Social Media [ICWSM 16], 2016, pp. 665-658).

Referências

N. Lomas, "Facebook Users Must Be Allowed to Use Pseudonyms, Says German Privacy Regulator; Real-Name Policy 'Erodes Online Freedoms,'" Techcrunch, 18 Dec. 2012; techcrunch.com/2012/12/18 /facebook-users-must-be-allowed-to -use-pseudonyms-says-german -privacy-regulator-real-name-policy -erodes-online-freedoms.
A. Kavanaugh et al., "Microblogging in Crisis Situations: Mass Protests in Iran, Tunisia, Egypt," Proc. Workshop Transnational Human-Computer Interaction (CHI 11), 2011; eventsarchive.org/sites/default/ les/Twi er Use in Iran Tunisia Egypt .Kavanaugh.Final__0.pdf.
E. Mustafaraj et al., "Hiding in Plain Sight: A Tale of Trust and Mistrust inside a Community of Citizen Reporters," Proc. 6th Int'l AAAI Conf. Weblogs and Social Media (ICWSM 12), 2012, pp. 250-257.
M.S. Bernstein et al., "4chan and /b/: An Analysis of Anonymity and Ephemerality in a Large Online Community," Proc. 5th Int'l AAAI Conf. Weblogs and Social Media(ICWSM 11), 2011, pp. 50-57.
D. Correa et al., " e Many Shades of Anonymity: Characterizing Anonymous Social Media Content," Proc. 9th Int'l AAAI Conf. Web and Social Media (ICWSM 15), 2015; socialnetworks.mpi-sws.org/papers/anonymity_shades.pdf.
S.T. Peddinti et al., "Cloak and Swagger: Understanding Data Sensitivity through the Lens of User Anonymity," Proc. 35th IEEE Symp. Security and Privacy, 2014, pp. 493-508.
H. Kwak et al., "What Is Twi er, a Social Network or a News Media?," Proc. 19th Int'l Conf. World Wide Web(WWW 10), 2010, pp. 591-600.
B. Bi et al., "Scalable Topic-Speci c In uence Analysis on Microblogs," Proc. 7th ACM Int'l Conf. Web Search and Data Mining (WSDM 14), 2014, pp. 513-522.
J. Jashinsky et al., "Tracking Suicide Risk Factors through Twi er in the US," Crisis, vol. 35, no. 1, 2014, pp. 51-59.

Sobre os autores

Sai Teja Peddinti é cientista e pesquisador em Segurança e Grupos de Privacidade no Google. Sua pesquisa foi feita enquanto se candidatava a PhD na Universidade de Nova York (NYU). Contato: psaiteja@ google.com.

Keith W. Ross é reitor de Engenharia e Ciência da Computação na NYU Shanghai e o Professor Titular de Ciência da Computação e Engenharia na NYU. Contate-o em: keithwross@nyu.edu.

Justin Cappos é professor assistente na Escola de Engenharia Tandon na NYU. Contate-o em: jcappos@nyu.edu.

Conteúdo publicado no tópico IA, ML e Engenharia de Dados

Tópicos Relacionados:

Conteúdo editorial relacionado

Usuário anônimo no Twitter

Pontos Principais

Conteúdo relacionado de patrocinadores

Conta básica no Twitter

Nosso trabalho

Classificando contas do Twitter

Quantificando usuário anônimo

Usuário anônimo e conteúdo sensível

Detectando contas sensíveis automaticamente

Reconhecimentos

Referências

Avalie esse artigo

Conteúdo publicado no tópico IA, ML e Engenharia de Dados

Tópicos Relacionados:

Conteúdo editorial relacionado

Conteúdo Relacionado de Patrocinadores

Conteúdo educacional

InfoQ Brasil Newsletter