Usuário:Kleiner/Análise qualitativa de edições

Origem: Wikipédia, a enciclopédia livre.

Projeto pessoal para uma análise estatística mais precisa da qualidade média das edições na Wikipédia.

Motivação[editar | editar código-fonte]

Existem milhares de estatísticas que se fiam na quantidade de reversões, na quantidade de imagens e texto adicionados, na quantidade de bytes, na quantidade de texto excluindo-se códigos wiki, entre muitas outras tentativas de fazê-lo de forma automatizada. Entretanto, qualquer que seja o método utilizado, sempre será falho, uma vez que qualidade de edição na Wikipédia jamais será algo suficientemente consensual. Isto é, dadas as visões extremas de muitos participantes, edições "cinzentas" (em que a qualidade da edição é questionável) serão entendidas de formas diferentes.

Ainda assim, uma análise de uma edição realizada manualmente, embora incrivelmente mais lenta, será mais precisa do que uma automatizada, por mesmo com fontes e bem formatada, uma edição poderá estar errada (info falsa, palavreado chulo, fonte incorreta, cópia sem autorização, info parcial/tendenciosa/spam, entre outros casos). Portanto, para que uma análise manual seja satisfatória, é necessário recorrer a amostras para obter resultados credíveis num espaço de tempo razoável (isto é, com certa rapidez).

Objetos de análise[editar | editar código-fonte]

O autor deste texto não é especialista em Estatística, portanto nãos abe se seu método é eficiente, mas fará a tentativa mesmo assim. Serão realizadas diversas análises considerando diversos fatores:

  • Mês e dia da semana (se férias escolares aumentam ou diminuem vandalismos, por exemplo)
  • Horário (se vandalismos ocorrem com mais frequencia em época escolar, por exemplo)
  • Tipo de editor: IP, registrado novato, registrado experiente, bot
  • Tipo de edição: criação de artigo, ajuste de interwikis (bots), mera reversão, adiçao de pequeno conteúdo, adição de grande conteúdo, pequena correção de conteúdo, correção substancial de conteúdo, deleção de conteúdo, vandalismo explícito, "spam" (no sentido genérico do termo), defesa de ponto de vista (PDV), adequação de conteúdo (às normas Wikipédicas, como ajustes de fontes, de predefinições, formatação wiki, etc.), e demais categorias que sejam representativas.
  • Frequência de edição: o quanto um editor (ou um tipo de editor) edita repetidamente o mesmo conteúdo em um ou mais artigos em um intervalo de tempo.

Método sugerido[editar | editar código-fonte]

  • Escolher um período "relativamente" aleatório (por exemplo: das 00:00 às 00:30) e analisar manualmente cada diff no domínio principal.
  • A partir daí registrar em uam tabela as características da edição de acordo com os objetos de análise (link pro diff, hora, tipo de editor e de edição, e qualidade da edição).
    • Qualidade de edição será, obviamente, subjetivo, determinado pelo autor da pesquisa, por exemplo: satisfatória; "melhorável"; ruim (deve ser deletada ou revertida, embora tenha sido de boa fé); ou vandalismo (edição prejudicial de má-fé).
  • Criar um resumo quantitativo das edições (quantas foram, quantas foram de qualidade X, Y e Z, etc).
    • Dependendo da facilidade/dificuldade de análise, pode-se incluir ou excluir do processo as edições de bots, por exemplo, para focar em um objeto de análise específico.
  • Criar uma página para cada horário escolhido, sempre no padrão "tabela de diffs - resumo quantitativo".
  • Após diversas páginas criadas, cada uma de um dia e/ou horário diferente, verificar o que se repete e o que muda.