Wikipédia:Central de pesquisas/Portal de dados

Origem: Wikipédia, a enciclopédia livre.
 Dados brutos API Tool Labs Bibliotecas Sobre 

A Wikipédia funciona graças a colaboração de diversos ferramentas, usadas de forma integrada, a partir da demanda de edições e acessos. Uma enorme quantidade de dados é gerada a cada hora, novas edições, acesso as páginas, são alguns exemplos de informações estruturadas armazenadas ao longo do funcionamento da Wikipédia.

Os dados brutos aqui falados são: dumps, cópias do banco de dados da Wikipédia e logs de acessos as páginas.

Arquitetura da Wikipédia.
Arquitetura da Wikipédia.

Página[editar código-fonte]

Dumps


descrição[editar código-fonte]

WMF publica cópias dos bancos de dados da Wikipédia e de todos os outros projetos. Os dados da Wikipédia anglófona são atualizados uma vez ao mês, por conta do seu tamanho, outros projetos menores tem esses dados atualizados com mais frequência.[1]

Conteúdo[editar código-fonte]

  • Texto e metadados de todas as revisões/edições de todas as páginas, em arquivo XML
  • Maior parte das tabelas do banco de dados, em arquivos SQL
    • Listas de ligações página-página (ligações de página, ligações de categorias, ligações de imagens)
    • Listas de páginas com ligações externas ao projeto (externallinks, iwlinks, langlinks tables)
    • Metadados de mídias (imagens, tabela de imagens antigas)
    • Informações sobre cada página (página, page_props, tabela restrições de página)
    • Títulos de todas as páginas no namespace principal, isso é, todos os artigos (*-all-titles-in-ns0.gz)
    • Lista de todas as páginas que são redirecionamentos e sua página alvo (tabela de redirecionamentos).
    • Lista de todas que são redirecionamentos e seus respectivos destinos.
    • Dados de log, inclui bloqueios, proteção, deleção, material subido (tabela logging)
    • Pedaços (interwiki, site_stats, user_groups tables)
  • experimental add/change dumps (no moves and deletes + some other limitations) https://wikitech.wikimedia.org/wiki/Dumps/Adds-changes_dumps
  • Adds/changes dumps
  • Stub-prefixed dumps for some projects which only have header info for pages and revisions without actual content
  • Pacotes de mídias para cada projeto, em arquivos distintos que foram enviados ao projeto e arquivos do Commons.

imagens : meta:Database dump#Downloading Images

(veja mais)

Baixar[editar código-fonte]

É possível baixar os mais atuais dumps You can download the latest dumps (for the last year) here (http://dumps.wikimedia.org/enwiki/ for English Wikipedia, http://dumps.wikimedia.org/dewiki/ for German Wikipedia, etc).

Arquivos : http://dumps.wikimedia.org/archive/

Espelhos oferecem alternativas para baixar os dados.

Para arquivos de grande tamanho o uso de ferramenta para baixar é recomendado.

Formato dos dados[editar código-fonte]

Dumps XML desde 2010 são armazenados num formato descrito em Export format( schema ). Esses arquivos estão comprimidos nos formatos bzip2 (.bz2) e .7z.

Dumps em formato SQL são disponibilizados como cópias dos das tabelas do banco, a partir do mysqldump.

Alguns dumps mais antigos estão disponíveis em mais formatos.

meta:Data dumps/Dump format

Como usar[editar código-fonte]

Veja exemplos de importação dos arquivos em um banco de dados MySQL com instruções detalhadas em meta:Data dumps/Import examples

Ferramentas[editar código-fonte]

A lista abaixo é de ferramentas para importação e conversão de dados, na sua maior parte arquivos xml. Algumas informações não estão necessariamente atualizadas.

Números de acessos[editar código-fonte]

Página[editar código-fonte]

Descrição[editar código-fonte]

Dados brutos de acessos a partir dos servidores squid, desde de 2007.

Conteúdo[editar código-fonte]

Cada requisição de página vai para um dos servidores cache Wikimedia, chamados squids. O nome do projeto, o tamanho da página requisitada e o título da página requisitada são armazenados a cada hora. Estatísticas para os projetos em inglês existem desde 2007, outros idiomas vieram a partir de 2008.

Arquivos cujos nomes começam com "projectcount" contém apenas o total de acessos por projeto por hora. Nota: Esses não são acessos únicos e nomes mudados são contados separadamente.

Baixar[editar código-fonte]

Formato dos dados[editar código-fonte]

Ordem dos dados: [Projeto] [Nome_do_artigo] [Número_de_requisições] [Tamanho em bytes do conteúdo requisitados]

onde Projeto está no formato languagem.projeto usando as abreviações descritas aqui.

Exemplos:

fr.b Special:Recherche/Achille_Baraguey_d%5C%27Hilliers 1 624

significa que a página com o título Achille_Baraguey_d%5C%27Hilliers do Wikilivros em francês, foi acessada uma vez na última hora e o tamanho do conteúdo é 624, em bytes.

en Main_Page 242332 4737756101

Vemos que a página principal da Wikipédia em inglês foi requisitada mais de 240 mil vezes no intervalo de uma hora.

Dados em formato JSON também estão disponíveis no site http://stats.grok.se/.

Ferramentas existentes[editar código-fonte]

stats grok[editar código-fonte]

É possível navegar interativamente pelas estatísticas de acessos e conseguir esses dados em formato JSON, a partir de http://stats.grok.se/.

Mantenedor[editar código-fonte]

http://stats.grok.se/ é mantido por User:Henrik

Projetos de pesquisa que usam esses dados[editar código-fonte]

Referências

  1. Checar quanto tempo leva para atualizar os dados da WP:PT