Usuário:Danilo.mac/Temas gerais

Origem: Wikipédia, a enciclopédia livre.

Esta é uma ideia de classificação dos artigos em um pequeno número de "temas gerais", isso se mostra necessário devido ao grande número de temas de introdução dificultar seleção de artigos para tarefas de manutenção.

A classificação de alguns artigos será relativamente fácil, as infoboxes, os temas de introdução e as categorias ajudarão a fazer a classificação, alguns artigos porém podem apresentar alguma dificuldade de classificação onde infoboxes, tema de introdução e categorias são ambíguas ou inexistentes. Possíveis solução para esses casos pode envolver classificação manual e/ou algorítimos mais complexos de classificação.

Temas gerais[editar | editar código-fonte]

Esta é uma lista inicial dos temas, aberta a sugestões.

  • Arte
  • Astronomia
  • Biologia
  • Ciência
  • Desporto
  • Entretenimento
  • Geografia
  • História
  • Sociedade (política, economia, direito, etc)

nota: astronomia e biologia são ciências, mas foram colocadas a parte por apresentarem um grande número de artigos.

A classificação pode ser feita em mais de um tema, por exemplo um filme pode pertencer ao mesmo tempo a arte e entretenimento.

Tipos[editar | editar código-fonte]

Aproveitando o trabalho de classificação podemos também fazer uma classificação quanto ao "tipo de coisa" ao qual o artigo se refere, isso pode ajudar a fazer classificações mais precisas quando necessário, por exemplo dentro do tema geral Arte podem ter artistas, obras de arte, eventos de arte ou conceitos artísticos. A lista abaixo é baseada em uma pesquisa por amostragem e está aberta a sugestões.

  • Evento
  • Classificação
  • Conceito (ideias e coisas abstratas em geral)
  • Indivíduo
  • Local
  • Objeto
  • Objeto astronômico
  • Obra
  • Organização

A classificação também pode ser feita em mais de um tipo, por exemplo um personagem pode ao mesmo tempo ser indivíduo e obra, e obras arquitetônicas podem ser ao mesmo tempo obra e local.

Regras de classificação automática[editar | editar código-fonte]

Essas são regras que serão usadas para o primeiro teste de classificação.

Regra Tema geral Tipo(s)
Usa a Info/Assentamento ou alguma infobox para descrever assentamentos geografia local
Usa a Info/Biografia ou alguma infobox para descrever pessoas indivíduo
Usa uma infobox de objetos astronômico ou está em categoria iniciada por "Estrelas", "Planetas", "Luas", "Galáxias", "Asteroides" astronomia objeto astronômico
Usa a Info/Filme arte e entretenimento obra
Está em um categoria começada por "Nascidos" indivíduo
Usa a Info/Taxonomia biologia classificação
Usa a Info/Futebolista ou está em categoria começadas por "Futebolistas" ou tem o tema de introdução futebolista desporto indivíduo
Está em categoria iniciada por "Terminologia" conseito
Está em categoria iniciada por "Artistas", "Pintores", "Cantores", "Atores" Arte indivíduo
Está em categoria iniciada por "Cantores", "Atores" Entretenimento indivíduo
Está em categoria iniciada por "Jogos Olímpicos" desporto
Está em categoria iniciada por "Eventos desportivos", "Eventos multidesportivos" desporto evento
Está na categoria:Matemática ou em subcategoria até dois níveis ciência conseito (somente se não tiver outro tipo definido)
Está na categoria:Objetos ou em uma subcategoria até dois níveis objeto
... ... ...

Testes[editar | editar código-fonte]

  • O primeiro teste com as 14 primeiras regras da tabela acima conseguiu classificar 538086 artigos, metade dos artigos da Wikipédia. É um começo mas eu estava esperando um pouco mais já que essas regras cobrem alguns dos temas com mais artigos na Wikipédia. Ainda tem muito a ser feito.
  • Adicionei mais regras olhando a lista dos artigos nos quais não foram encontrados temas. Com 66 regras foram classificados 666878 artigos (61% dos artigos da Wikipédia). Não estou encontrando muitos padrões nos artigos que não foram classificados para criar mais regras. Hora de pensar em métodos mais complexos de classificação.

Regras complementares[editar | editar código-fonte]

Como as regras acima não são suficientes para classificarem todos artigos, outros tipos de regras são necessárias para complementar o processo. A maioria das regras abaixo usam as classificações feitas pelas regras acima como base.

  • Cada categoria deve ter a classificação dos seus artigos avaliada, uma categoria que tiver por volta de 80% de seus artigos em um mesmo tema é uma indicação que os artigos dessa categoria que ainda não foram classificados também devem pertencer a esse tema.
  • O mesmo deve ser feito com as predefinições.
  • O mesmo deve ser feito com os temas de introdução.
  • O mesmo deve ser feito com prefixos que aparecem em títulos de muitos artigos (ex: "Torneio ...").
  • O mesmo deve ser feito com a classificação de subclasse no Wikidata.
  • A classificação de subclasse no Wikidata pode ser usada para definir o tipo quando o tipo não foi definido por outro método.
  • As ligações internas podem ser usadas com algorítimos de classificação (ex: classificação bayesiana), pois existem ligações internas que são mais comuns em alguns temas e muito incomuns em outros.