Usuário(a):HAndrade (WMF)/Pesquisa Vandalismo

Origem: Wikipédia, a enciclopédia livre.

Introdução[editar | editar código-fonte]

Recentemente, muito tem se debatido na Wikipédia sobre a ação de vândalos. Muitas opiniões estão sendo expostas e propostas estão sendo encaminhadas a partir da percepção pessoal de cada usuário, que pode variar de acordo com diversos fatores.

Essa pesquisa se propõe a expandir o trabalho iniciado pelo Alchimista analisando o vandalismo buscando padrões e identificando mudanças de comportamento a partir da retirada do modo emergencial do captcha realizada em 9 de Abril de 2013, fornecendo assim dados concretos que auxiliem o entendimento do cenário e fomentem a decisão de próximos passos.

Metodologia[editar | editar código-fonte]

Segundo a página Wikipédia:Vandalismo "Vandalismo é qualquer adição, remoção ou modificação de conteúdo feita de forma a comprometer deliberadamente a integridade da Wikipédia.". Dessa forma, para essa pesquisa quantitativa será considerada vandalismo toda edição que tiver sido revertida. Sabe-se que esse recorte é incompleto e deixará de fora das estatísticas os seguintes casos

  • Vandalismos corrigidos manualmente
  • Vandalismos feito após vandalismo no mesmo artigo antes do primeiro ser revertido
  • Vandalismos que ainda estão presentes na Wikipédia

assim como poderá indevidamente contabilizar como vandalismo o seguinte caso:

  • Edição de boa fé desfeita


Para evitar os caso acima citados seria necessário fazer uma análise qualitativa dos dados, enquanto esse pesquisa se propõe a fazer uma análise quantitativa. Acredita-se que o volume dos casos de vandalismo que estão dentro do recorte desta pesquisa seja suficiente como grupo amostral para responder as perguntas propostas nessa pesquisa. Uma abordagem mais detalhada para análise do vandalismo é indicada como possível trabalho futuro.

Identificando uma Reversão[editar | editar código-fonte]

Para identifcar uma reversão será observado o sumário de todas as revisões salvas no período analisado. Serão consideradas como reversões as edições com um dos padrões abaixo e vandalismo como vandalismo a revisão que tiver sido alterada pela reversão.

  • 'Reversão%'
  • '[[WP:REV|Revertidas]]%Huggle]])'
  • 'Desfeita%'

Trabalhos Futuros[editar | editar código-fonte]

Durante o planejamento desse trabalho foram apontadas sugestões que extrapolavam o escopo desse projeto e estão aqui listadas como possíveis trabalhos futuros:

  • Avaliar o que mudou na trajetória de um novo editor em marcos como dia 1, 2, 3, 4, 10 (se eles se tornaram autoconfirmados mais rapidamente do que antes, com CAPTCHA)
  • Fazer uma outra pesquisa sobre "tempo de maturação" de um usuário, verificando quantos dias em médias um novo usuário leva para atingir X edições.
  • Avaliar reversão de vandalismos antigos (que estavam visíveis por um tempo na Wikipédia) assim como vandalismos que foram corrigidos através de edição, e não de reversão.

Segunda Fase da Pesquisa[editar | editar código-fonte]

Após a realização da pesquisa conforme os critérios metodológicos aqui descritos foram feitas sugestões de melhoria para que mais edições relevantes fossem incluidas no espaço amostral pesquisado. Assim, foi realizada a Segunda Fase da pesquisa com novos critérios, que estão descritos junto com os resultados em uma subpágina por fins de organização.

Período Analisado[editar | editar código-fonte]

Serão Analisados os meses de Janeiro, Fevereiro, Março e Abril de 2012 e 2013.

Com esses dados o mês de Abril atual será comparado com o mesmo mês do ano anterior assim como com a tendência apontada pelos três meses imediatamente anteriores, levando em consideração variações que possam ser fruto do experimento "Reversores bloqueando vândalos".

Perguntas[editar | editar código-fonte]

  • Qual o percentual de edições feitas por IPs, usuários não autoconfirmados e outros?
  • Qual o índice de reversão de páginas criadas por IPs, usuários não autoconfirmados e outros?
  • Qual o índice entre páginas revertidas / total de edições?
  • Quem mais combate vandalismo?
  • Admins e reversores estão sobrecarregados?
  • Quais horários de pico de vandalismo?
  • Quais horários de pico para combate ao vandalismo?


Dados[editar | editar código-fonte]

  • Edições
  • Edições feitas por IP
  • Edições feitas por usuários não autoconfirmados
  • Edições feitas por usuários autoconfirmados
  • Edições revertidas
  • Edições feitas por IP revertidas
  • Edições feitas por usuários não autoconfirmados revertidas
  • Edições feitas por usuários autoconfirmados revertidas
  • Edições desfeitas
  • Edições feitas por IP desfeitas
  • Edições feitas por usuários não autoconfirmados desfeitas
  • Tempo de vida de edição revertida
  • Reversões feitas por admins
  • Reversões feitas por admins usando Huggle
  • Reversões feitas por reversores
  • Reversões feitas por reversores usando Huggle
  • Reversões feitas por bots
  • Quantos admin fizeram reversões
  • Quantos reversores fizeram reversões
  • Quantos usuários desfizeram edições


Separar dados por mês, quinzena, dia e horário do dia (manhã, tarde, noite e madrugada, usando como referência o horário de Brasília).

Datas relevantes[editar | editar código-fonte]

Data Fato
Apr 12, 2012 Concedida permissão para Reversores bloquearem vândalos
Jun 12, 2012 Retirada permissão para Reversores bloquearem vândalos
Out 09, 2012 Proposta de reversores bloqueando vândalos aprova em definitivo conforme Wikipédia:Votações/Reversores bloqueando vândalos/2
Apr 9, 2013 Desativação do modo emergencial do captcha
- -

Alterações de filtros e bots antivandalismo devem ser listadas aqui.


Dados Brutos[editar | editar código-fonte]

Ano 2012 2013
Mês Janeiro Fevereiro Março Abril Janeiro Fevereiro Março Abril
Total de Edições 382959 523065 367444 353574 401375 349806 906335 364336
Edições feitas por Bots 140573 291660 144658 123500 144306 132506 668457 107283
Edições feitas por Humanos 242386 231405 222786 230074 257069 217300 237878 257053
Edições feitas por IP 69773 65974 69847 68922 62423 56592 65826 83383
Edições feitas por Usuários Registrados 172613 165431 152939 161152 194646 160708 172052 173670


Ano 2012 2013
Mês Janeiro Fevereiro Março Abril Janeiro Fevereiro Março Abril
Total de Reversões 11971 13453 13577 15330 10203 11626 13595 19283
Total de Reversões feitas por Humanos 9241 9722 8985 11135 8469 9208 10720 15337
Edições Revertidas por Bots 2730 3731 4592 4195 1734 2418 2875 3946
Edições Revertidas com Huggle 2359 3560 3442 5359 2835 3295 4149 8671
Edições Revertidas (Outros) 1904 1359 939 1316 2122 2092 2455 1951
Edições Desfeitas 4978 4803 4604 4460 3512 3821 4116 4715
Tempo de vida médio de edição revertida (em horas) 16.7886 14.6211 12.0412 11.0454 21.1081 15.7137 12.9768 8.7089
Tempo de vida médio de edição revertida por humanos (em horas) 21.7489 20.2323 18.1951 15.2074 25.4299 19.8401 16.4571 10.9497
Tempo de vida médio de edição revertida por bots (em horas) < 1 < 1 < 1 < 1 < 1 < 1 < 1 < 1
Edições feitas por IPs revertidas 8547 10160 10882 12172 7306 8771 10524 16287
Edições feitas por IPs revertidas por bots 2386 3376 4293 3862 1544 2231 2634 3704
Edições feitas por IPs revertidas por humanos 6161 6784 6589 8310 5762 6540 7890 12583



Ano 2012 2013
Mês Janeiro Fevereiro Março Abril Janeiro Fevereiro Março Abril
Reversões feitas por Reversores 3641 4385 3171 3143 3985 4027 5404 7993
Reversões feitas por Reversores usando Huggle 1096 2359 1786 1337 2422 2786 3750 6392
Reversores Revertendo 66 71 76 76 75 71 64 61
Reversores com mais de 5 reversões 40 48 44 39 38 37 34 41
Reversores com mais de 100 reversões 8 9 7 7 7 8 12 10
Reversoes feitas pelos reversores superativos 2645 3331 2220 2235 2987 3192 5025 7093
Reversões feitas por Sysops 1757 1516 1946 1530 1733 1979 1874 3510
Reversões feitas por Sysops usando Huggle 1122 957 1373 1035 403 508 396 2256
Sysops Revertendo 29 25 26 23 26 26 27 27
Sysops com mais de 5 reversões 20 17 20 18 16 19 19 20
Sysops com mais de 100 reversões 5 3 6 4 4 6 7 7
Reversoes feitas pelos sysops superativos 1247 904 1427 981 1431 1745 1617 2892

Cronograma[editar | editar código-fonte]

Data Ação
Abril Debate sobre métricas
Primeira semana de Maio Levantamento de Dados
13 de Maio Divulgação de Resultados

Análise dos dados[editar | editar código-fonte]

Aumento da quantidade de edições por IP em Abril de 2013[editar | editar código-fonte]

  • Fiz a regressão linear dos dados de edições de IP em 2012 e curva de tendência é f(x)=132*x + 68299 e nos três primeiros meses de 2013 foi de f(x)=1701*x + 58210. Assumindo que a tendência de 2013, a quantidade de edições previstas para IPs em abril seria de 65014 o que significa que houve um aumento de 28,2% quando comparado com o valor real de 83383. Levando em consideração a tendência de 2012 (e substituindo pelo coeficiente linear de 2013 para corrigir o ponto zero da curva), as edições previstas para IPs seria de 58739 o que significa que o aumento foi de 42,0% em relação ao valor real de 83383. É possível usar a regressão linear dos dados de 2012 sem a correção do coeficiente linear e neste caso o valor de x na equação seria 16 (e não 4) porém o erro seria muito maior em vista de não haver os dados dos meses entre maio e dezembro de 2012. OTAVIO1981 (discussão) 17h18min de 17 de maio de 2013 (UTC)

Aumento da quantidade de edições por Registrados em Abril de 2013[editar | editar código-fonte]

  • Seguindo a metodologia anterior, a linha de tendência em 2012 foi f(x)=-4698*x+174752 e a de 2013 (excluindo abril) foi de f(x)=-11297*x+198396. Levando em consideração a tendência de 2012 (corrigida), seria previsto 179648 edições de registrados em abril de 2013 o que significa que houve uma redução de 3,3% uma vez que o total de edições neste mês foi de 173670. Para a linha de tendência de 2013, a quantidade de edições previstas para registrados foi de 153208 o que significa que houve um aumento de 13,3%. Este aumento não deve ser interpretado como aumento na retenção pois foi impactado pelo aumento da quantidade de reversões. Subtraindo o total de reversões por humanos (15337) deste valor total de edições (173670) o aumento foi de somente 3,3%. OTAVIO1981 (discussão) 17h58min de 17 de maio de 2013 (UTC)

Aumento da quantidade de reversões em Abril de 2013[editar | editar código-fonte]

  • Para esta avaliação, os dados serão ponderados pelo total de edições feitas por humanos de modo a atenuar os efeitos de crescimento do projeto. A linha de tendência dos três primeiros meses do ano foi f(x)=0,00873*x+0,03265 enquanto para o primeiro quadrimestre de 2012 foi f(x)=0,00545*x+0,04514. De acordo com a tendência de 2013, o percentual de reversões previsto para abril seria de 6,75% que no total de edições do período (257053) correspondem a 17369 reversões. Uma vez que em Abril houve 19283 edições, o aumento na quantidade de reversões foi de 11,0%. Utilizando a curva de tendência de 2012 (corrigindo o coeficiente linear), o percentual previsto para abril de 2013 seria de 5,45% que no total de edições do período correspondem a 13996 reversões. O aumento neste cenário foi de 37,8%.OTAVIO1981 (discussão) 15h26min de 19 de maio de 2013 (UTC)

Consolidado das análises por OTAVIO1981[editar | editar código-fonte]

Parâmetro Análise por 2012 Análise por 2013
Edições preditas Diferença % em relação ao real Edições preditas Diferença % em relação ao real
Edições por IPs 58739 42,0% 65014 28,2%
Edições por registrados 179648 -3,3% 153208 13,3%*
Total de reversões 13996 37,8% 17369 11,0%
Por humanos 10195 50,4% 13431 14,2%
Por robôs 3806 3,7% 3940 0,2%
Por huggle 6280 38,1% 5388 60,9%
Outros** 1210 61,2% 2948 -33,8%
Desfeitas 2859 64,9% 5096 -7,5%

* Deve se levar em consideração que este aumento pode ser reflexo do aumento do número de vandalismos. Um valor corrigido indica que o aumento foi de 3,3% ** O número deve ser analisado por cuidado em função da pequena quantidade de edições o que deixa o percentual sucetível a variações maiores no acompanhamento.