Usuário:Albmont/Estimativa do número de artigos sem fontes

Origem: Wikipédia, a enciclopédia livre.

Esta pesquisa tem por finalidade avaliar o tamanho do estrago, ou seja, no contexto da Wikipédia:Central de pesquisas, visa medir um ponto específico: qual é a porcentagem de artigos que não tem fontes? Uma estimativa antiga (2009) era que este número era de 90%, porém estimativas mais recentes indicam algo como 50%. Para que o teste possa ser repetido (o que não seria possível usando-se o Especial:Aleatória, foram utilizadas as páginas listadas em Especial:Todas as páginas, e escolhidas todas as páginas, exceto a primeira e a última. Este teste tem alguma repetibilidade, porém é óbvio que as páginas mudarão conforme novas páginas forem criadas. No momento, as páginas são as listadas abaixo, seguido da avaliação (0 = nenhuma fonte, 1 = porcamente referenciado, 2 = parcialmente referenciado, 3 = bem referenciado, 4 = perfeitamente referenciado):

* 3617 eicher redirect

* 804 a.c. redirect

* Abrus precatorius, Leguminosae redirect

* Atletismo nos Jogos Olímpicos de Verão da Juventude de 2010 - Rev... * Atletismo nos Jogos Olímpicos de Verão da Juventude de 2010 - Rev...

* Birendra do Nepal redirect

* Comuna de Skar?ysko Ko?cielne

* Diocese de angra do heroísmo redirect * Dre desambiguação

* Entente desambiguação

* Explorer i redirect

* Grézieu-la-varenne redirect

* Harshach?rita

* Kajuru na área redirect

* Marrero desambiguação

* Mármores do Partenon redirect

* O Aniversário de nossa Estrela redirect

* Saltos ornamentais no Campeonato Mundial de Esportes Aquáticos de ... * Saltos ornamentais no Campeonato Mundial de Esportes Aquáticos de ...

* Sevilla fútbol club redirect

* Tite?ti

* Westside desambiguação

Conclusões:

  1. Há 65% de artigos sem fontes (estatisticamente, pode-se dizer que 2/3 dos artigos são sem fontes)
  2. O desastre é maior do que minha estimativa empírica (50%) mas bem menor que a estimativa comum (90%)
  3. Boa parte da desgraça é devida a dois tipos de lixo robótico: artigos de geografia, e artigos de espécies. No segundo caso, não imagino como se possa resolver além de ir, um a um, referenciando (quando possível) ou eliminando (quando não for possível). No primeiro caso, imagino que a solução seja um pouco mais simples: se o robô fez a, na metáfora do José Luiz, a cagada, então talvez seja possível que robôs consertem a cagada, ou seja, que sejam escritos robôs para passar o Rolo Compressor de Jimbo em cima destes lixões de geografia, mas agora inserindo fontes

Finalmente, para deleite de quem gosta de gráficos, segue um histograma que resume os dados acima. Albmont (discussão) 17h14min de 9 de abril de 2013 (UTC)

Histograma extraído dos dados acima
Histograma extraído dos dados acima

Comentários são bem vindos. Trollagens não[editar | editar código-fonte]

  • Amostra pequena. Para ganhar robustez em nível de significância estatística tem que aumentar. Vou pesquisar as técnicas de amostragem parar determinar a quantidade de maçãs podres num lote de 750 mil maçãs. Abs,OTAVIO1981 (discussão) 18h45min de 9 de abril de 2013 (UTC)
Seja p a variável aleatória proporção de artigos sem fontes em uma população N. Então a quantidade de artigos sem fontes em uma amostra de tamanho n (n << N) segue uma distribuição binomial (droga! artigo sem fontes!) de média n p, e como n p > 5 e n (1 - p) > 5 pode-se aproximar a proporção de artigos sem fontes na amostra por uma normal de média p e desvio padrão , assim, o intervalo de segurança a 95% para a estimativa do número de artigos que não tem fontes é:
ou seja, colocando números:
58% < p < 74%
A amostra foi significativa para rejeitar tanto a hipótese de que p = 90% quanto a hipótese de que p = 50%. Albmont (discussão) 19h11min de 9 de abril de 2013 (UTC)

Revisão[editar | editar código-fonte]

Qualquer dia vou revisar esta pesquisa. Empiricamente, pelo uso diário de "página aleatória", notei uma redução substancial do número de textos sem fontes, quase todos são mínimos sobre espécies criados em massa e abandonados pelo NH ou mínimos sobre geografia. Empiricamente, de novo, talvez só haja 1/3 de textos sem fontes, a maioria (talvez 2/3 deste grupo, ou cerca de 20% do total de "artigos" da wiki.pt) sendo estes que eu acabei de citar, criado em massa e abandonados. Albmont (discussão) 12h37min de 12 de abril de 2014 (UTC)