Usuário(a) Discussão:HAndrade (WMF)/Estatísticas Wikiprojeto Saúde

O conteúdo da página não é suportado noutras línguas.
Adicionar tópico
Origem: Wikipédia, a enciclopédia livre.
Último comentário: 30 de junho de 2014 de HAndrade (WMF) no tópico WikiProject Factor

Olá Henrique, acho que deveria ser feito um tratamento e limpeza nos dados antes da geração e compilação do relatório, artigos como Pulp Fiction acabam fugindo ao propósito do relatório e das atividades que usarão esses dados como base para escolha de categorias e artigos para edição/melhoria Rodrigo Padula (discussão) 05h21min de 7 de março de 2014 (UTC)Responder

Eu acabei respondendo ao Rodrigo pessoalmente, mas como essa página voltou a receber movimento acho por bem deixar a resposta registrada aqui: na página principal da pesquisa eu explico os problemas relacionados ao Escopo do WikiProjeto. O WikiProjeto Saúde utiliza 26 categorias e suas subcategorias para definir seu escopo. Como dentro da Wikipédia não existe hierarquia entre categorias, a árvore de sub-categorias cresce quase que infinitamente e, quanto mais nós se desce, maior é o risco de se afastar do objetivo inicial do recorte pretendido. Eu criei um tópico no wikiprojeto levantando essa questão mas não tive muito retorno. Então, pedi diretamente a ajuda do Usuário:Vini_175 que se prontificou a olhar as categorias comigo e chegamos a conclusão que pegando apenas dois níveis de subcategorias estaríamos trabalhando com um recorte com poucos falsos positivos.
Em paralelo a isso, inicou-se um esforço de recategorizar algumas páginas para que um usuário que navegue pela árvore de categorias do wikiprojeto não caia em verbetes não relacionados com saúde. Acredito que essa seja a forma correta de fazer a "limpeza nos dados" que você sugere. Não acredito que no momento de geração de dados o pesquisador deva excluir alguns artigos da amostra por "acreditar que eles não façam parte do escopo", se um usuário navegando pelo projeto de fato receberá a sugestão de editá-los.
Resumindo; a forma mais eficiência de "limpar os dados" é o próprio wikiprojeto trabalhar na melhor categorização dos artigos e/ou pensar em outra estratégia de definição de seu escopo (uma possibilidade é a utilização de pré-definições na página de discussão, por exemplo). Caso o wikiprojeto decida mudar sua metodologia de definição de escopo podemos facilmente adaptar a pesquisa para atendê-la, mas essa decisão deve ser tomada . HAndrade (discussão) 22h15min de 9 de abril de 2014 (UTC)Responder
A princípio, minha ideia é iniciar um esforço de recategorização dos artigos no WikiProjeto e também de retomar a utilização da marca do projeto nas páginas de discussão. É uma tentativa de solucionar a fragilidade da amostra. Vinicius Siqueira MSG 02h30min de 10 de abril de 2014 (UTC)Responder

WikiProject Factor[editar código-fonte]

Achei os dados interessantes. Eu não tenho ideia de como andam os outros WikiProjetos, mas considero importante monitorar como macro temas (e.g. Saúde) recebem atenção na Wikipédia, além de como isso interfere na enciclopédia como um todo. Podemos aproveitar o código usado nesses relatórios para montar um modelo padrão, usável com outros temas. Acho que a proposta é mensurar a relevância dos temas e como isso varia ao longo do tempo.

Claro, se conseguirmos plotar isso na linha do tempo da Wikipédia será ótimo. --Jonas_agx (discussão) 03h27min de 3 de abril de 2014 (UTC)Responder

Jonas, eu não sei se esse código pode ser aproveitado como está para outros projetos pois não sei como eles definem seu escopo (ver resposta no tópico anterior). Porém, esse código serve sim para gerar esses dados a partir de uma lista de categorias(o que pode atender tanto a outros wikiprojeto como a pesquisas isoladas sobre determinados assuntos).
Sobre a linha do tempo, conforme conversamos semana passada é sim de meu interesse exportar esses dados para lá. Vou criar agora uma página específica para debatermos os detalhes disso aqui: Wikipédia:Ptwikis/Linha do Tempo. HAndrade (discussão) 22h20min de 9 de abril de 2014 (UTC)Responder
Jonas, está acontecendo agora um esforço para padronização de marcas de projetos bem legal. Quando ele estiver pronto poderemos implementar sua ideia e ter um script que gere dados para qualquer wikiprojeto :) HAndrade (discussão) 12h50min de 30 de junho de 2014 (UTC)Responder

Tabelas num gráfico[editar código-fonte]

Olá Henrique, estou vendo as tabelas dos números de edições por mês. Não seria mais legal um gráfico para podermos visualizá-las? Ou até mesmo um arquivo CSV para ficar fácil quem quiser gerar um gráfico? O que acha? --everton137 (discussão) 12h00min de 6 de abril de 2014 (UTC)Responder

Everton, conforme indicado em "Trabalhos futuros" na pesquisa concordo sim que será legal plotar esses dados em um gráfico. Porém, estava me incomodando a ideia de gerar gráficos isolados para cada pesquisa, e achei por bem trabalhar para integrar a visualização de todos eles na linha do tempo (ver tópico anterior). Assim, em breve esse dataset estará disponível por lá de forma gráfica.
Sobre o CSV, de fato não havia pensado sobre isso inicialmente mas não vejo porque não o fazer. Todos os dados que estão alimentando a linha do tempo estão armazenados no ptwikis em TSV e acredito que não seja complicado oferecê-los para download. HAndrade (discussão) 22h33min de 9 de abril de 2014 (UTC)Responder
Resgatando a questão: Tom, esses dados agora já estão sendo visualizados na linha do tempo e os datasets crus estão disponíveis para download direto na página da ferramenta. HAndrade (discussão) 12h46min de 30 de junho de 2014 (UTC)Responder

Código que gera esses dados[editar código-fonte]

Olá. Onde está o código que gera esses dados apresentados nas tabelas? Algum link para os repositórios? Obrigado, --everton137 (discussão) 12h03min de 6 de abril de 2014 (UTC)Responder

Oi Tom, esse código está no ptwikis. Mas você levantou uma boa questão. Não faz sentido alguém solicitar acesso ao shell simplesmente para ver o código. Iniciamos um debate ano passado sobre utilizar um sistema de controle de versão no projeto, mas não o concluímos. Vou reativar esse debate e te matenho informado sore a resolução.
PS. caso você queira ter acesso ASAP ao código posso enviá-lo para ti. HAndrade (discussão) 22h33min de 9 de abril de 2014 (UTC)Responder