Usuário(a) Discussão:HAndrade (WMF)/Pesquisa Vandalismo

O conteúdo da página não é suportado noutras línguas.
Adicionar tópico
Origem: Wikipédia, a enciclopédia livre.
Navegação no histórico de edições: ← ver edição anterior (dif) ver edição seguinte → (dif) ver última edição → (dif)

Último comentário: 20 de junho de 2013 de HAndrade (WMF) no tópico May

Muito bom, Henrique! Na parte de avaliação da comunidade, acredito ser importante levantar os dados das quantidades de bloqueios que foram feitos no período e quanto geraram um pedido para IP ou Conta nova. Lembro também que o Helder já havia feito um script que levantava várias destas informações e que talvez seja útil para adaptar e coletar os dados restantes referentes aos admin/revs. Abs!OTAVIO1981 (discussão) 16h05min de 19 de abril de 2013 (UTC)Responder

Editando aqui para deixa o registro público. Conversamos sobre isso no IRC e o Otavio compartilhou esse link com o script feito pelo Helder. HAndrade (WMF) (discussão) 22h05min de 25 de abril de 2013 (UTC)Responder

Datas relevantes[editar código-fonte]

Henrique, você conferiu exatamente a questão das datas dos reversores bloqueando vândalos? Acho que a permissão foi concedida em abril e após foi bloqueado por script o uso até a aprovação em definitivo. Vou tentar confirmar e te aviso. Abs, OTAVIO1981 (discussão) 20h20min de 3 de maio de 2013 (UTC)Responder

Otavio, eu peguei as datas a partir do relatório que você mesmo escreveu. Caso elas possam não estar precisas por favor avise! :-) HAndrade (WMF) (discussão) 14h12min de 6 de maio de 2013 (UTC)Responder
Atualizei com a data que imaginei estar faltando. Do jeito que estava, parecia que os reversores não bloqueiam vândalos quando na verdade fazem isso. Então em 2012 temos 3 meses sem permissão (01/01 a 12/04), 3 meses com permissão temporária (12/04 a 12/07), ~3 meses sem permissão (12/07 a 9/10) e 3 meses com permissão em definitivo (9/10 até hoje). Abs, OTAVIO1981 (discussão) 14h31min de 6 de maio de 2013 (UTC)Responder

Mudança de Cronograma[editar código-fonte]

Passei alguns dias doente e não consigui produzir dentro do prazo esperado então adiei em uma semana o cronograma. Assim, espero publicar resultados iniciais da pesquisa até 13 de Maio. HAndrade (WMF) (discussão) 22h15min de 10 de maio de 2013 (UTC)Responder

Leitura inicial rápida[editar código-fonte]

Fiz umas contas rápidas aqui e o percentual de reversões por bot foi menor em 2013 do que em 2012 o que indica uma ineficiencia do recurso.OTAVIO1981 (discussão) 22h07min de 15 de maio de 2013 (UTC)Responder

Agora o aumento nas reversões é brutal. Mais de 50%... José Luiz disc 11h39min de 17 de maio de 2013 (UTC)Responder
Fiz a regressão linear do percentual de reversões sobre o total de edições nos três primeiros meses e cheguei a um valor previsto de reversões em abril da ordem de 16451 reversões. Como foram 19283 o aumento foi de aproximadamente 17%. Em termos de reversões por humanos este valor aumento foi de 14%. Como chegou a este valor de 50%?OTAVIO1981 (discussão) 13h30min de 17 de maio de 2013 (UTC)Responder
P.S.:Um detalhe: não fiz as correções levando em conta os dados do ano passado. Abs.OTAVIO1981 (discussão) 13h34min de 17 de maio de 2013 (UTC)Responder
Também não entendi. O Henrique ainda vai cruzar vários desses dados, mas de maneira incipiente, fiz algumas contas aqui e me chamou a atenção do fato de as edições por IPs terem aumentado quase 21% de 2012 pra 2013 (dados de abril), mas a reversão de edições feitas por IPs aumentou 33,8%. Acho que está claro que o número de reversões aumentou. Precisamos olhar com mais precisão o cruzamento de dados, no entanto. E, quem sabe, temporariamente colocar um site notice para IPs para ver o que acontece: "se quiser fazer testes na Wikipédia, faça-os AQUI". Ao monitorar e reverter (com minha conta pessoal), vi muitos, muitos aparentes testes - que dão trabalho para os reversores da mesma forma, não nego. Mas acho que podemos abordar diferentemente do que abordamos vândalos (mal intencionados, o que vi também). Pra ser sincera, eu não deixo de entender (e até mesmo dar certa razão para) o ponto de vista do José Luiz, mas acho que o efeito é menos linear e mais complexo, ao olhar também para as edições não revertidas e outras variáveis. E também acho que dialogar com os dados aqui é bem mais rico do que sem eles. --Oona (WMF) (discussão) 14h08min de 17 de maio de 2013 (UTC)Responder
Vejam que, como esperado, o peso recai sobre os "vigilantes": (i) Reversões feitas por reversores: 5404 mar ==> 7993 abr. Destas, os "superativos" aguentam 5025 e 7093. A participação do "resto" é pífia (como já sabíamos). (ii) O mesmo padrão para "sysops" e "sysops superativos". É um dado que apóia a impressão que eu, Alch, Belanidia, Poly etc. já tínhamos manifestad: o trabalho aumentou muito pra quem já vigiava muitas páginas ou é ativo no Huggle. Em dias que o Salebot tá fora (como hoje), é bastante coisa (eu tenho 3 páginas de artigos alterados nas minhas vigiadas pra olhar quando chegar em casa diariamente). José Luiz disc 14h54min de 17 de maio de 2013 (UTC)Responder
Estes efeitos já eram esperados tendo em vista os relatos pessoais já referidos. Precisamos chegar a um consenso do como quantificar estes valores e começar a pensar em alternativas para diminuir os efeitos de ausência do captcha para que no longo prazo seja possível avaliar as ações. O que me surpreendeu em particular foi o percentual de reversões robóticas ser baixo e ter diminuido de 2012 para 2013 levando em consideração as edições de teste que são mais facilmente identificáveis.OTAVIO1981 (discussão) 16h57min de 17 de maio de 2013 (UTC)Responder
Otávio, já pensaram em medir o uptime desses robôs? Quantos dias por mês o Sale e o Aleph ficam fora do ar? Estão parados já faz dois dias... Isso distorce bastante as médias. José Luiz disc 20h20min de 17 de maio de 2013 (UTC)Responder
Não, mas é uma informação muito importante! grato pelo informe! Abs, OTAVIO1981 (discussão) 20h49min de 17 de maio de 2013 (UTC)Responder

Mês de maio[editar código-fonte]

Henrique, quando o mês de maio terminar é possível coletar estes dados para maio? Acredito ser importante para monitorar os efeitos de longo prazo. OTAVIO1981 (discussão) 13h38min de 17 de maio de 2013 (UTC)Responder

Sim, a ideia é monitorar pelo maior tempo possível. --Oona (WMF) (discussão) 14h08min de 17 de maio de 2013 (UTC)Responder
Sim Otavio, quando mais tempo após a significativa mudança do modo do captcha nós coletarmos dados mais precisas poderão ser nossas análises. HAndrade (WMF) (discussão) 18h31min de 17 de maio de 2013 (UTC)Responder

Ponto muito importante[editar código-fonte]

Venho destacar um ponto muito importante: o número de reversões não necessariamente corresponde ao número de vandalismos feitos.

São cerca de 70 mil edições por mês de IPs. Vamos supor que X% disso esteja escapando do olhar de robôs e humanos, teríamos Y(mil) vandalismos por mês que permaneceram e Z o tempo até o projeto inteiro ser vandalizado. Se distribuídos uniformemente pelos 782 mil artigos, mantendo tudo constante para facilitar o cálculo:

Assumindo: 
- 70 mil ediçoes de IPs por mês
- 782 mil artigos se mantém constante
- Vandalismos se distribuem perfeitamente pelo projeto

                            meses até 100%     anos até 100%
% que        vandalismos     vandalizado        vandalizado
escaparam   que escaparam	
5%		3500		223		18,6
10%		7000		112		9,3
20%		14000		56		4,7
30%		21000		37		3,1
40%		28000		28		2,3
50%		35000		22		1,9
60%		42000		19		1,6
70%		49000		16		1,3
80%		56000		14		1,2
90%		63000		12		1,0
100%		70000		11		0,9

Eu sei que são criados novos artigos diariamente, mas assumi aquilo para ver os danos possíveis ao longo do tempo.

Talvez estejam sendo revertidos com sucesso apenas 50% ou 10% ou qualquer outro valor dos vandalismos, a que tudo indica não há como saber. Robôs não captam tudo em seus filtros, e humanos nem sempre estão vigiando e revertendo. Os vândalos podem estar vencendo e podemos nem estar nos dando conta disso, a realidade pode ser muito pior que todo mundo pensa e a médio/longo prazo pode inviabilizar totalmente a Wikipédia.

É necessário tomar medidas que possam conter esse problema. Vulcan (discussão) 02h52min de 20 de maio de 2013 (UTC)Responder

Sim, é verdade que o número de reversões não necessariamente corresponde ao número de vandalismos feitos. Neste número estão incluídas também edições de teste mal-sucedidas e além dos vandalismos não detectados estes números deixam escapar vandalismos que são combatidos com a alteração do sumário para uma frase que não foi incluída no parâmetro de análise ou reversões parciais com a mesma configuração. Mas a sua suposição de que uma vez passado da barreira inicial (combate na MR e PN), o vandalismo não será mais detectado não procede. Na verdade, seria interessante uma análise da curva de tempo de horas até a reversão pois uma pequena parcela dos vandalismos pode ser antiga e já ter passado pelo filtro da MR e PN. Ademais a sua análise não leva em conta o elemento básico da wikipédia de que não é possível garantir o conteúdo (ver Wikipédia:Aviso geral) pois um leitor pode acessar uma página vandalizada segundos antes de uma reversão do Salebot, por exemplo, e utilizar o erro como um cavalo de batalha para alegar que o projeto é ruim. Nunca existirá uma versão da wikipédia isenta de erros ou vandalismos enquanto o projeto for aberto. Aliás, fechá-lo também não implica que eventualmente todos os erros serão corrigidos. Por isso devem haver fontes, por isso a wikipédia é o ponto de partida da pesquisa e não o final e por isso a wikipédia não deve ser utilizada como única ferramenta para o ensino.OTAVIO1981 (discussão) 10h53min de 20 de maio de 2013 (UTC)Responder


Páginas novas[editar código-fonte]

E sobre as páginas novas criadas, não tem quase ninguém vigiando pelo que vi agora, tem página criada em 20 de abril(há 1 mês atrás) por IPs e usuários que não foram patrulhadas, vejam de IPs por ex., e sabe-se lá quantas não fogem desse filtro e não são patrulhadas pois a maioria dos usuários só tem acesso máximo dos últimos 30 dias e pouquíssimos fazem esse trabalho. Não raro se verifica que muitos desses artigos criados por IPs e usuários estão contra os pilares e políticas da Wikipédia, principalmente por IPs. Vulcan (discussão) 04h34min de 20 de maio de 2013 (UTC)Responder

Bem lembrado, seria interessante monitorar também as eliminações por ER criadas por IP e contas novas. Abs, OTAVIO1981 (discussão) 10h55min de 20 de maio de 2013 (UTC)Responder
Não havíamos pensado em monitorar esses dados agora, mas acredito que podemos adicioná-los numa próxima fase dessa pesquisa. HAndrade (WMF) (discussão) 08h51min de 22 de maio de 2013 (UTC)Responder

Ajustes nos Dados[editar código-fonte]

Pessoal, recebi um email do Nemo questionando a metodologia que escolhemos de identificar reversões a partir de análise dos sumários de edição. Fiz alguns testes e percebi que de fato várias reversões estava ficando de fora de nossa análise. Com ajuda do Otavio identificamos que reversões feitas para revisões que não sejam a imediatamente anterior não estavam tendo o sumário preenchido conforme o padrão, e portanto estavam ficando de fora de nosso espaço amostral. Para evitar grandes distorções em nossas análises estou coletando novamente alguns dados e irei publicá-los aqui na página. HAndrade (WMF) (discussão) 08h51min de 22 de maio de 2013 (UTC)Responder

conclusão[editar código-fonte]

Quando a pesquisa será concluída e algum resultado apresentado? Abs, OTAVIO1981 (discussão) 15h59min de 1 de junho de 2013 (UTC)Responder

Otavio, durante essa semana estou consolidando os dados de Maio para apresentar alguns resultados parciais. Considerando os debates sobre nova alteração do CAPTCHA acredito que essa pesquisa deva ocorrer por mais alguns meses, e para isso o processo de geração de dados e análises comparativas dela será automatizado. HAndrade (WMF) (discussão) 06h08min de 4 de junho de 2013 (UTC)Responder

May[editar código-fonte]

When will we have stats on May (and June)? It's impossible to take any decision without information. --Nemo bis (discussão) 09h16min de 18 de junho de 2013 (UTC)Responder

Hi Nemo, the stats on May were published in this page. We can collect June data when the month ends. HAndrade (WMF) (discussão) 04h35min de 20 de junho de 2013 (UTC)Responder