Wikipédia:Esplanada/geral/Pesquisa sobre temas, tamanhos e número de acessos (1jan2018)

Origem: Wikipédia, a enciclopédia livre.

Pesquisa sobre temas, tamanhos e número de acessos (1jan2018)

gráfico dos temas mais comuns

Já faz um tempo que eu queria fazer uma pesquisa sobre os temas mais comuns na Wikipédia, como para pegar um único tema por artigo não é possível usar as categorias, tive a ideia então de obter o tema da primeira frase de cada artigo, que geralmente segue o padrão "<título do artigo> é um(a) <tema do artigo>...", usando essa ideia consegui obter o tema de 87% dos artigos, removendo as desambiguações. O resultado coloquei no gráfico ao lado.

Para fazer uma análise melhor de cada tema, eu juntei os dados dos temas com dados sobre a existência de referências, o tamanho e o número de acessos dos artigos e coloquei nesta tabela dos 200 temas mais comuns. Esses dados nos permitem fazer algumas análises sobre a situação dos artigos de cada tema. Por exemplo em temas onde a porcentagem de artigos menores que 2000 bytes é muito alta, mostra que existem muitos esboços e mínimos nesse tema, talvez por terem sido criados por robôs como os asteroides e comunas, já se a porcentagem de artigos maiores que 8000 bytes é alta, mostra que esses temas têm muitos artigos desenvolvidos, como é o caso de canção, banda e série. Uma análise semelhante pode ser feita para número de acessos, uma porcentagem alta de artigos com menos de 5 acessos mostra que existe uma pouca procura dos leitores por artigos desse tema, e uma porcentagem alta de artigos com mais de 50 acessos mostra que existe uma demanda maior dos leitores por esses artigos.

Para ajudar a visualizar os artigos de todos os temas e separá-los por tamanho e número de acessos eu criei também esta ferramenta, que organiza os artigos de uma forma semelhante à matriz de qualidade e importância, com isso dá para encontrar com mais facilidade, por exemplo, os artigos pequenos e com grande número de acessos, os quais teoricamente merecem uma prioridade dos editores que se dedicam ao tema. A ferramenta também gera a mesma matriz por categoria, e até dois níveis de subcategorias, tive que limitar a 2 níveis por questão de desempenho, mas acredito que é o suficiente para dar uma boa visão dos artigos da categoria.

Espero que esses dados ajudem a organizar o trabalho dos editores e a direcionar nossos esforços aqui na Wikipédia de uma maneira mais eficiente. Danilo.mac(discussão) 23h41min de 1 de janeiro de 2018 (UTC)[responder]

Muito interessante a pesquisa e a ferramenta. Espero que seja bastante usada. Para que a ferramenta não se perca, talvez se possa colocar ligação em algum local, talvez relacionado com os projectos. Algo a pensar. GoEThe (discussão) 08h53min de 2 de janeiro de 2018 (UTC)[responder]
Também poderia ser interessante integrar com o user:SuggestBot para melhorar a forma de sugestão de artigos. GoEThe (discussão) 08h55min de 2 de janeiro de 2018 (UTC)[responder]
Os dados parecem também dar algum suporte (visual) à hipótese de que artigos mais completos (ou pelo menos mais extensos) tem tendência a atrair mais visitas. GoEThe (discussão) 10h17min de 2 de janeiro de 2018 (UTC)[responder]
O que dá para afirmar é que o alto número de acessos tem alguma relação com os artigos grandes, mas não dá para dizer qual é a causa de qual. Para fazer essa análise seria necessário analisar o tamanho e números de acessos dos artigos ao longo do tempo para ver qual aumentou primeiro. O meu palpite é que o que vêm antes depende do tema, em temas relacionados à cultura, sociedade e entretenimento o aumento do interesse e consequente aumento no número de acessos vêm antes e causa o desenvolvimento do artigo, e em temas mais científicos e acadêmicos o desenvolvimento do artigo torna-o uma fonte de informação mais útil comparado a outras fontes disponíveis e gera o aumento no número de acessos. Mas para comprovar isso é necessário uma pesquisa bem mais aprofundada. Danilo.mac(discussão) 14h36min de 2 de janeiro de 2018 (UTC)[responder]
Realmente, é possível. De qualquer modo, é interessante haver essa relação. GoEThe (discussão) 08h26min de 3 de janeiro de 2018 (UTC)[responder]
Muito legal @Danilo.mac:. Acessei a Matriz de tamanho e acessos e ao explorar a lista clicando no número de artigos em cada campo da tabela, em alguns aparece Gerando lista, aguarde... e nada acontece, em outros a lista é exibida abaixo. Rodrigo Padula(Fale comigo) 21h57min de 2 de janeiro de 2018 (UTC)[responder]
@Rodrigo Padula: Corrigido. Danilo.mac(discussão) 17h13min de 3 de janeiro de 2018 (UTC)[responder]
Que trabalho fantástico, parabéns. Essa divisão por categorias ficou excelente. A relação de visitas tem a mesma a ver tipo de categoria e o conteúdo que ela apresenta. As categorias maior porcentagem de artigos +50 visualizações são categorias muito objetivas como mostrado: processo, conceito, forma, ramo, instrumento, ... Elas possuem temas em sua maioria atemporais, muitos deles são pesquisados diariamente. Temos categorias com páginas que apresentam grandes visualizações enquanto a grande maioria das demais páginas estão esquecidas: políticos, futebolistas, clubes, competições. Temos categorias gigantes com muitos artigos esquecidos comuna, asteróide .... Igor G.Monteiro (discussão) 22h16min de 2 de janeiro de 2018 (UTC)[responder]
Obrigado. De fato é interessante ver como alguns temas são mais esquecidos que outros, acho que muitos já tinham essa percepção, mas a comprovação por meio de estatísticas deixa isso mais evidente. Danilo.mac(discussão) 17h11min de 3 de janeiro de 2018 (UTC)[responder]