Wikipédia:Esplanada/geral/Um milhão de artigos? Thanks, but no. Thanks! (2jul2014)

Origem: Wikipédia, a enciclopédia livre.

Um milhão de artigos? Thanks, but no. Thanks! (2jul2014)

Sei que muitos já se indignaram sobre as wikis que passaram a nossa na quantidade de artigos. O Signpost deste mês analisou a questão (na seção What do the Vietnamese, Waray-Waray, and Swedish Wikipedias all have in common?) quando a wikipedia vietnamita e a waray-waray das Filipinas ultrapassaram 1.000.000 de artigos. Ao contrário do que acham os pessimistas de plantão, não atingimos o milhão por excesso de deletadores, mas por falta de robos criadores de mínimos .... José Luiz disc 23h57min de 2 de julho de 2014 (UTC)[responder]

lol, a culpa então não era realmente do Prowiki. Creio que nunca tivemos costume de usar bots por aqui. Willy Weazley 00h35min de 3 de julho de 2014 (UTC)[responder]
O excesso de "deletadores" ajuda também nessa questão também. !Silent (discussão) 00h50min de 3 de julho de 2014 (UTC)[responder]
@Willy, sim, tivemos. Usuários valorosos como o Rei-artur e o Fabiano Tasch criaram mais de 100.000 artigos por aqui usando robôs.... Sobre os deletadores, uma estística simples é contar quantas páginas passaram pelo crivo deles. Chutando muito alto, são 1000 artigos deletados por mês todo mês nos últimos 10 anos (12.000 por ano e 120.000 desde que a ptwiki existe). O tal bot citado cria 120.000 artigos num mês, fácil.... rs... José Luiz disc 01h05min de 3 de julho de 2014 (UTC)[responder]
E lá vem a wikipedia em cebuano (que eu não sei onde nem em que país é falado) pra ganhar o milhão! José Luiz disc 01h09min de 3 de julho de 2014 (UTC)[responder]
O Rei-arthur não é da "minha época" e creio que nem o Fabiano, mas é uma pena que o projeto tenha perdido usuários como eles. A minha primeira skin eu copiei de uma das subpáginas do Rei-artur; mas por fim, qual a graça de fazer volume? Não entendo isso.Willy Weazley 01h18min de 3 de julho de 2014 (UTC)[responder]

E qual a vantagem em ter um zilhão de artigos, sendo boa parte deles sobre pedaços de rocha boiando no espaço? Prefiro competir (se é que existe) em qualidade. Quanto mais artigos inúteis, mais espaço pra vandalismos, mais editores enxugando gelo pra desfazê-los. Yanguas diz!-fiz 01h33min de 3 de julho de 2014 (UTC)[responder]

Yanguas, o que eu conheço de mais próximo de competição em termos de qualidade é meta:List_of_Wikipedias_by_sample_of_articles. Qualidade, neste caso, é o acompanhamento da evolução de uma lista arbitrária de artigos importantes.OTAVIO1981 (discussão) 10h18min de 3 de julho de 2014 (UTC)[responder]
Ainda somos a décima Wikipédia em termos de profundidade (já essas Wikipédias com zilhões de artigos...). Por outro lado, a comunidade não é muito eficiente (ou será que melhoramos desde 2009?). Helder.wiki (discussão) 11h43min de 3 de julho de 2014 (UTC)[responder]
  • Eu vivi esse "tempo dos bots" e não tenho saudade dele. Em 2006 o Nuno criou 50.000 artigos sobre comunas da França e outras coisas parecidas, só que a pt-wp na época tinha menos de 100.000 artigos; nas efemérides os bots do Rei criavam 10 ou 20 mil artigos para ganhar apostas sobre quem faria o artigo com o numero redondo~, O Fabiano tasch usava o bot para criar artigos de listas, listas de oficiais nazistas, por exemplo. E tome artigo sobre asteroides. Neste caso menos é mais, era melhor ter 100 mil realmente bons que esta porcaria toda. Poderiamos usar um bot deletador?Jo Loribd 15h11min de 4 de julho de 2014 (UTC)[responder]

Fiz uma pesquisa no banco de dados para trazer mais alguns números para a discussão:

Número de artigos anglófona sueca vietnamita wary-wary lusófona exemplo de tamanho
com até 1000 bytes 605.501 (13%) 153.317 (9%) 140.752 (13%) 116.009 (11%) 159.624 (19%) 959 bytes
entre 1000 e 2000 1.000.689 (22%) 706.009 (42%) 803.529 (72%) 741.068 (69%) 288.551 (35%) 1605 bytes
entre 2000 e 5000 1.571.116 (34%) 758.828 (45%) 134.103 (12%) 210.343 (20%) 246.127 (30%) 3684 bytes
entre 5000 e 10000 823.390 (18%) 45.295 (3%) 23.488 (2%) 5.421 (1%) 82.194 (10%) 7736 bytes
mais de 10000 bytes 633.831 (14%) 23.969 (1%) 20.210 (2%) 1.373 (0%) 56.807 (7%) 20193 bytes
total 4.633.350 1.685.477 1.121.996 1.073.744 833.085

Como podem ver pela tabla, apesar de termos um bom número de artigos pequenos e mínimos, o nosso número de artigos com mais de 5000 bytes é maior que a da sueca, vietnamita e waray-waray somadas. Danilo.mac(discussão) 02h41min de 6 de julho de 2014 (UTC)[responder]

[Conflito]

Primeiramente, gostaria de dizer que gostei desta discussão, por isso quero participar. @José Luiz, quantos artigos você cria por mês? Você possui conhecimento de robótica-wiki? Sabe, eu não. Eu gostaria de criar artigos de qualidade em massa, todos eles devidamente referenciados e com texto de qualidade, mais não posso criar "em massa", isso é coisa pra robô, e eu não sei como se opera e cria um, acredito que eu e milhares de usuários não saibam como se faz um robô. O mais próximo que vi disso eram FMTbot e o LijieBot que cria / crivam centenas de artigos. Você disse "não atingimos o milhão por excesso de deletadores, mas por falta de robos criadores de mínimos"... sabe, eu concordo. Imagine tentar preencher mais de 160 mil artigos usando "usuários humanos". Demoraria muito tempo.

O único problema é que, pelo que eu posso ver, criar um robô com sucesso, que cria páginas, é algo tal difícil e tão estressante que nem vale a pena o esforço. Quantos usuários que possuem conhecimento de robô, que criam robôs, que fazem seus robôs serem ativos e criam artigos de qualidade você conhece? Esta explicado por que a Wiki demora tanto para criar artigos importantes de tremas repetitivos, esses artigos seriam ótimos para serem criados por robôs, mas não são por que a Wikipédia portuguesa é muito fraca de robôs. --Zoldyick (Discussão) 02h46min de 6 de julho de 2014 (UTC)[responder]

Se é para competir em nível de palhaçada, criando um milhão de "artigos" que ninguém nunca vai usar para nada, que tal criar um milhão de artigos sobre números? Um robô faz isto fácil, fácil! Novecentos e vinte e nove mil, cento e um é um número natural. Ele é o produto de quatro números primos, pois 929101 = 17 x 31 x 41 x 43. Ele possui 6 divisores próprios, além do um e dele mesmo. etc, etc, ad nauseam. Albmont (discussão) 14h10min de 7 de julho de 2014 (UTC)[responder]

Outra consulta relacionada a tamanho de artigos: ranking das Wikipédias por número de artigos com mais de 5000 bytes. Estamos em 10º lugar nesse ranking, o qual é mais confiável por considerar apenas artigos mais desenvolvidos, coloquei essa lista para atualizar uma vez por semana. Danilo.mac(discussão) 03h48min de 8 de julho de 2014 (UTC)[responder]

@Danilo.mac: só lembrando que o número de bytes não é a mesma coisa que o número de caracteres. Por exemplo, a palavra "Избранная" do idioma russo ocupa 18 bytes, mas só tem 9 caracteres. Helder.wiki (discussão) 11h24min de 8 de julho de 2014 (UTC)[responder]

5000 esboços sobre espécies criados por robôs não valem três artigos tais como Literatura infantil (en), Infância (en) e Hieróglifos egípcios (en) criados por humanos. Wilhelm Artz (discussão) 07h52min de 10 de julho de 2014 (UTC)[responder]

  • Concordo totalmente e meu objetivo com este post é que paremos de reclamar que a "ptwiki está ficando pra trás" e que daqui a pouco "vamos sumir da PP da enwiki" ou que aquela predef com as dez maiores línguas não vai mais ter o português ou ainda que o pt não vai mais ser considerada uma "major wiki". Ou nos engajamos na guerra robótica ( o que eu não concordo) ou vamos ficar em paz vendo os outros nos passarem sabendo que nossa wiki se aprofunda muito mais do que se expande ao contrário de outras. De qqer forma, é sempre bom saber o que pensam os colegas.... José Luiz disc 21h58min de 10 de julho de 2014 (UTC)[responder]
Um comentário de hoje que li foi Citação: It's absurd, but inevitable. Either stop with the soccer records, or ITN/R it. Btw, this factoid got lost in an edit conflict: of the 9 wikis with 1000000+ articles (EN,DE,FR,NL,IT,ES,RU,SV,PL) only 3 (EN, NL and RU) posted this to the main page. Even the language of the host nation, PT, didn't bother.. I wonder if that is a blurb worthy soccer record. --166.205.68.17 (talk) 03:18, 10 July 2014 (UTC) no ITN da en wiki, por ex. José Luiz disc 23h58min de 10 de julho de 2014 (UTC)[responder]
  • Só um detalhe: o problema não é criar artigo com robôs, e sim criar artigos abaixo de um mínimo de qualidade aceito pela comunidade. Lembro muito bem que o Prowiki foi duramente criticado por criar muitos artigos (manualmente) dentro dos parâmetros mínimos de qualidade aceitável. O chute acima de que são 1000 artigos apagados por mês carece de mais informações. Da última vez que estimei tal valor eram 200 eliminações por dia, então para ter uma base melhor para avançar no impacto da eliminação é preciso averiguar melhor este número e o que ele significa antes de tirarmos conclusões. Particularmente, embora acredite que existe uma relação razoável entre tamanho do artigo e qualidade, não deveríamos por todos os nossos ovos nesta cesta. Qualidade também é servir ao leitor das informações que ele precisa e não um texto de 50 laudas prolixo ou detalhista, portanto artigos pequenos também têm valor. OTAVIO1981 (discussão) 20h53min de 11 de julho de 2014 (UTC)[responder]
Os robôs são importantes para quantidade de artigos nas WP Waray-Waray e Cebuano (ambas províncias das Filipinas). Mas não são responsáveis pelas WP dos idiomas holandês, alemão, sueco, francês, italiano, russo, polonês e japonês, com número de falantes menor que o português, terem maior quantidade de artigos que a WP lusófona. Assim, os robôs (deveríamos tê-los também para os artigos mínimos - melhor mínimo, incentivando a ampliação, do que não ter o artigo.) não explicam sermos a 14ª maior.
Nem somos menores para sermos melhores:
a) somos a 10ª melhor do mundo por profundidade dos artigos (profundidade ou profundidade de edição da Wikipedia mostra com qual frequência seus artigos são atualizados. Não se refere a qualidade acadêmica, o que não pode ser calculado, mas a qualidade wikipedista, ou seja, a profundidade da colaboração dos editores)[1]: as WP dos idiomas hebraico (2ª), árabe (3ª), turco (4ª), servo-croata (6ª) e persa (8ª), são mais profundas que a WP do idioma português, com populações falantes, salvo a árabe, muito menores que a lusófona;
b)somos a 10ª melhor do mundo em artigos com mais de 5000 bytes (Este é um ranking mais confiável pois não inclui artigos pouco desenvolvidos e artigos mínimos criados por robôs)[2]: as WP russa, alemã, francesa, japonesa, italiana, polonesa e ucraniana, todos com menos falantes que a lusófona, tem mais artigos com mais de 5000 bytes;
c) somos a 12ª melhor do mundo pelo tamanho dos artigos que toda WP deve ter (a lista tinha 1.000 artigos a partir de 9 de março de 2012), critério que poderia também implicar em profundidade dos mesmos[3]. Estamos atrás da catalã (2ª), ucraniana (5ª), búlgara (9ª) e a vietnamita é a 13ª, logo após a lusófona, o que contradiz a afirmação que ela é grande (9ª maior), mas não tem qualidade, por ser uma WP baseada em artigos mínimos.
Assim defendo mais trabalho e menos briga na WP lusófona. Parece-me que muitos editores de idioma português gostam mais de ganhar disputas ideológicas que fazerem artigos. Parece que estão participando de um jogo (ou fogueira) das vaidades. E, neste jogo, para eles, vale mais encontrar e destruir, do que construir artigos. Um grande abraço, Celso Ferenczi (discussão) 00h06min de 14 de julho de 2014 (UTC)[responder]
Eu insisto: não comparem bytes quando deveriam ser comparados caracteres. Helder.wiki (discussão) 00h39min de 14 de julho de 2014 (UTC)[responder]
Explica melhor isso aí pros leigos, Helder. O que você quer dizer é que um caracter em russo, ucraniano, vietnamita ou qualquer uma destas línguas que não usam o alfabeto romano corresponde a 2 a 4 bytes, ou seja, um artigo russo ou vietnamita com 5000 bytes corresponde a um artigo em português de 1250 a 2500 bytes. Albmont (discussão) 18h43min de 15 de julho de 2014 (UTC)[responder]
Algo assim... (podendo variar de página pra página, dependendo da proporção de caracteres que usam só um byte e que usam mais de um). Helder.wiki (discussão) 19h11min de 15 de julho de 2014 (UTC)[responder]
  • Alguém saberia acertar a {{Maiores Wikipedias}} para que passe a informação mais correta? Sugiro que, dada a devida consideração ao tema do "bytes x caracteres", que ela reflita a nossa posição com base em artigos reais e não apenas na quantidade pura e simples? Ou, ao menos, que tenha duas linhas indicando a quantidade e também o número de artigos com profundidade... Sei lá se vale a pena, mas são tantas as PUs que usam esse template que acho que valeria a pena... Menos "complexo de vira-lata", pra ficar na expressão da moda depois da copa... José Luiz disc 00h17min de 16 de julho de 2014 (UTC)[responder]
Como assim que "passe a informação mais correta"? Que ela atualize automaticamente? !Silent (discussão) 01h35min de 16 de julho de 2014 (UTC)[responder]
Mais correta no sentido de identificar a "maior" não como apenas a que tem "mais artigos", mas a que tem um critério melhor (que exclui robôs, que considera caracteres e não bytes etc.) como "maiores"...José Luiz disc 02h14min de 16 de julho de 2014 (UTC)[responder]

Precisamos de artigos de qualidade e não quantidade. Além de termos menor quantidade de artigo em relação as outras wikis, a qualidade dos mesmos deixam a desejar, com artigos vandalizados a mais de um mês sem qualquer alteração, má formação, politica ineficiente etc. Parece até um lugar que conhecemos... Repsac (discussão) 02h10min de 16 de julho de 2014 (UTC)[responder]

Inacreditável. Você leu algo do que foi escrito aqui? Foi exatamente pra conter este tipo de argumento que abri este tópico.... José Luiz disc 02h14min de 16 de julho de 2014 (UTC)[responder]
Não li não, porque é sempre mesma coisa. Muito papo e pouca ação. Repsac (discussão) 02h17min de 16 de julho de 2014 (UTC)[responder]
Ahã. Er... Boa, novato(ou não? Confissões tb são sempre legais!)! Como alguém "age pouco" aqui, achei "excelente" sua opinião! José Luiz disc 02h21min de 16 de julho de 2014 (UTC)[responder]
Como sempre. Sempre destratando os novatos. Mas se engana, pois conheço muito bem as coisas aqui e já havia dito isso antes. Isso não vem ao caso, não é o assunto deste tópico. Repsac (discussão) 02h23min de 16 de julho de 2014 (UTC)[responder]
NÃO. Destratei você, que, grosseiramente, fez a seguinte afirmação ( e cito): Citação: Não li não, porque é sempre mesma coisa. Muito papo e pouca ação. Conheço que tais há anos e nunca perduram aqui por que falta verve. Ou, tão comuns quanto e como parece ser o teu caso, perduram aqui como divas magoadas, saindo e voltando num ciclo eterno.... Conheço tua laia pela forma de escrever (e, com 246 edições, opinando na Esplanada - mostra tua cara, bro...)... José Luiz disc 02h33min de 16 de julho de 2014 (UTC)[responder]

Algo do tipo fica meio inviável de se fazer José, pois na página que é usada como referência para atualização dos dados não mostra esse tipo de informação. !Silent (discussão) 02h48min de 16 de julho de 2014 (UTC)[responder]

É complicado de fazer mesmo, aquele ranking dos artigos com mais de 5000 bytes é obtido do banco de dados, o qual não tem tamanho em caracteres. Existem dois modos de se fazer isso, analisando os dumps de todas wikis (centenas de gigabytes) ou pegando artigos aleatórios de cada wiki para estimar a média de bytes por caractere de cada língua. Vou tentar por esse segundo modo, se conseguir algo aviso aqui. Danilo.mac(discussão) 16h01min de 17 de julho de 2014 (UTC)[responder]
Consegui. Subimos para 9º. Coloquei um link para a análise de bytes por caractere no final. Danilo.mac(discussão) 01h06min de 18 de julho de 2014 (UTC)[responder]
Parabéns, Danilo. É possível que algo parecido seja fonte para {{Maiores Wikipedias}}?? O que está ali hoje é uma besteira cheia de problemas metodológicos (como já discutimos aqui exaustivamente).... José Luiz disc 02h26min de 18 de julho de 2014 (UTC)[responder]
Parabéns Danilo! Muito bom! Abraço. Celso Ferenczi (discussão) 03h48min de 18 de julho de 2014 (UTC)[responder]
Criei a {{wikipédias com mais artigos desenvolvidos}} baseado nesse ranking. Danilo.mac(discussão) 04h02min de 18 de julho de 2014 (UTC)[responder]
Os "milagres" sueco e filipinos: http://oglobo.globo.com/sociedade/tecnologia/autor-mais-produtivo-da-wikipedia-ja-escreveu-27-milhoes-de-artigos-quase-10-de-todo-material-13262849. Temos de aprender algo de bom com isso. Quem sabe fazer um bot decente? Abraços, Celso Ferenczi (discussão) 04h27min de 19 de julho de 2014 (UTC)[responder]