Wikipédia:Esplanada/propostas/Dificultar a criação de artigos mínimos (26jul2013)

Origem: Wikipédia, a enciclopédia livre.

Dificultar a criação de artigos mínimos (26jul2013)

Atualmente temos três filtros para páginas novas com pouco conteúdo, de acordo com o tamanho dela (em bytes?):

  • 00~30 - Desabilitar (impedido de criar)
  • 30~50 - aviso que a edição pode não ser útil, mas se achar que é ainda pode salvar
  • 50~60 - apenas insere uma etiqueta

Analisando os registros dos três, não vimos praticamente nenhum falso-positivo (o filtro ter atrapalhado em algo). Na grande maioria dos casos em que o artigo é salvo, ele é enviado para ER. Mesmo quando isso não acontece, o conteúdo é tão pequeno que não adianta muito e só é mantido quando depois aparece alguém para adicionar conteúdo, mas nesse caso seria mais útil o próprio autor já criar com mais alguma coisa (por exemplo, alguma ref, ou algo mais que "X é Y").

A proposta que apareceu foi o primeiro filtro (desabilitar) ser de 00~50, o segundo (aviso) de 50~70, e o terceiro (etiqueta) de 70~80. O que acham?

Rjclaudio msg 16h40min de 26 de julho de 2013 (UTC)[responder]

Concordo Não vejo como estes artigos mínimos iriam informar algum leitor, e creio que aumentar o mínimo de bytes da criação de artigos iria melhorar e facilitar o combate ao vandalismo. JackgbaMsg 16h54min de 26 de julho de 2013 (UTC)[responder]
Os registros analisados estão listados nas seguintes páginas:
Há estatísticas gerais sobre os filtros na WP:Filtro de edições/Estatísticas.
Observação: levem em conta que cada vez que o código de um filtro muda, é como se estivéssemos falando a respeito de um filtro novo, e a análise feita para a versão antiga provavelmente não vale para a nova (dependendo do tipo de alteração feita). Em particular, o que propõe pode ser entendido como a "criação de três filtros novos", já que nenhum dos existentes está configurado exatamente para os intervalos que propõe (e aí é preciso ver a análise já feita para os três que já existem se aplica às três novas versões). Helder 17h00min de 26 de julho de 2013 (UTC)[responder]
Mais uma coisa: dos filtros existentes, somente o primeiro (1–29) foi aplicado a todos os usuários. Os outros dois foram testados apenas com quem não está no grupo "autoconfirmed" (e do dia 15 de julho de 2013 para cá, o de 30–50 passou a ignorar também os do grupo "confirmed"). Helder 17h08min de 26 de julho de 2013 (UTC)[responder]
Acha necessário testar os outros tb para todos os usuários? Ou então, testar para "não-autorrevisores"? Rjclaudio msg 17h31min de 26 de julho de 2013 (UTC)[responder]
Não sei. Só quis ressaltar que não podemos (pelo menos não necessariamente) tirar conclusões sobre uma versão de um filtro com dados sobre outra versão. Helder 18h36min de 26 de julho de 2013 (UTC)[responder]
Comentário Na página de testes descobri algo que não sabia: cada caracter corresponde a 1 byte(seja ele um espaço ou uma letra). :Portanto essa "frase" abaixo tem 100 bytes:
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
Tem que tomar cuidado com esses casos. Vulcan (discussão) 17h51min de 26 de julho de 2013 (UTC)[responder]
Que cuidado tem que ser tomado com mínimos de 453B e desambiguações de 156B? Eles simplesmente não ativariam nenhum dos filtros em discussão, já que eles passariam a abranger no máximo páginas de 80B. Então tem problema nenhum.--Mister Sanderson (discussão) 18h22min de 26 de julho de 2013 (UTC)[responder]
Eu coloquei os valores para servir de referência, na verdade o cuidado que me referi seria mais com os redirecionamentos, pelo que vi em Especial:Páginas curtas desambiguações não seriam afetadas, mas por exemplo um redirecionamento para um artigo com um nome curto sim. Um "#REDIRECT [[a]]" por exemplo tem 15 bytes. Update*: o Rjclaudio respondeu na minha PDU agora que os filtros separam desambiguações/redirecionamentos, então nem precisa se preocupar com eles. Vulcan (discussão) 18h29min de 26 de julho de 2013 (UTC)[responder]
O três filtros citados estão configurados para ignorar edições em páginas de redirecionamentos e desambiguações (ou mais precisamente, edições que incluam um destes textos: "#redirec" ou "desambig").
Comentário sobre outras wikis Na Wikipédia anglófona, dando CTRL+F, encontrei o filtro equivalente ao terceiro nosso (o nosso 67, que seleciona páginas novas muito curtas e as etiqueta no sumário pra ser vista nos históricos de edições e do filtro). É o de número 98. Como condição, ele usa 'menos de 150', ignora se o editor for autoconfirmado, e o resto não entendo. Vi também que lá a ficha do filtro mostra o número de hits com um link para conferir quais edições o ativaram, e vi que a nossa não tem - como isso parece prático, acho que nossa interface deveria passar a ter também; isso facilitaria inclusive a opinarem aqui na proposta, já que seria mais fácil verificar a situação. Pois bem, lá, nas ativações de hoje do filtro (até 17:03 GMT, ou seja, uns 40 minutos atrás), de 67 páginas marcadas, duas se mantém: en:The kings school, Goa e en:My Life and Hard Times. Todas as outras foram eliminadas, ou estão etiquetadas para eliminação, ou ainda não foram patrulhadas. Na Wiki hispanófona eu li todos os nomes dos filtros não-eliminados e não há nenhum para páginas demasiado curtas. --Mister Sanderson (discussão) 17h56min de 26 de julho de 2013 (UTC)[responder]
Tem sim (confira em Especial:Filtro de abusos/66, por exemplo). Inclusive fiz questão de torná-lo acessível para mais gente, para que mais pessoas pudessem analisar e dar sugestões do que melhorar ou corrigir nos filtros. Helder 18h36min de 26 de julho de 2013 (UTC)[responder]
Ah, é porquê o Rjclaudio linkou lá em cima uma versão específica do hitórico do filtro.--Mister Sanderson (discussão) 18h54min de 26 de julho de 2013 (UTC)[responder]
Na verdade, fui eu quem acrescentou os links permanentes (para que estivéssemos todos a falar do mesmo filtro, já que temos alterado o código de alguns). Helder 19h10min de 26 de julho de 2013 (UTC)[responder]
Observação: The Kings School foi proposto para eliminação lá e expandido em seguida, e My Life and Hard Times na verdade tinha sido criado em 2008 e editado no dia 26.--Mister Sanderson (discussão) 20h32min de 27 de julho de 2013 (UTC)[responder]
Discordo da eliminação de mínimos que tem interwikis, deve-se avaliar a questão dos redirecionamentos.--Raimundo57br (discussão) 17h54min de 26 de julho de 2013 (UTC)[responder]
Legal comentar sem ler a proposta, né?--Mister Sanderson (discussão) 17h56min de 26 de julho de 2013 (UTC)[responder]
Lembra que eu escrevi que esse tema tem que ser resolvido pelos interessados e não aqui na esplanada. Metade dos que leram a proposta, não entenderam sobre o que se trata. Alternativamente, poderia se tentar colocar o tema em "língua humana".... José Luiz disc 18h16min de 26 de julho de 2013 (UTC)[responder]
Acho que o aviso (MediaWiki:abusefilter-warning-nova-minima) que os dois primeiro filtros mencionados (66 e 53) mostram deveria ser mudado: o texto começa com "atenção", é vago demais ao simplesmente dizer "indevida, por falta de conteúdo apropriado a uma enciclopédia" e "sem conteúdo útil", e erra ao dizer que a Wikipédia pode 'bloquear o computador' de alguém.--Mister Sanderson (discussão) 18h18min de 26 de julho de 2013 (UTC)[responder]


Como o filtro não pega redirecionamento nem desambiguação, o que é excelente, vou tentar ajudar com exemplos práticos de trechos de um artigo que criei, para ter ideia de quanto são esses bytes:

  • Artigo mínimo(também conhecido como "X é Y"): 106 bytes bytes
  • Artigo mínimo um pouco mais elaborado: 214 bytes
  • Artigo mínimo um pouco mais elaborado com uma fonte: 357 bytes

Se hoje é 30 bytes desautoriza... então acho que poderíamos ser mais radicais, tudo que for menor que 300 bytes(trezentos) poderia desautorizar a criação. Vulcan (discussão) 18h49min de 26 de julho de 2013 (UTC)[responder]

Muitos artigos de 300B são eliminados ou o número foi chutado como parece ter sido?--Mister Sanderson (discussão) 18h54min de 26 de julho de 2013 (UTC)[responder]
Foi chutado devido ao exemplo acima, esse, são 2 frases + uma referência(no caso totalizou 357 bytes então chutei um valor um pouco menor), esse é o mínimo aceitável na minha opinião, abaixo disso não deveria estar na Wikipédia. Vulcan (discussão) 19h06min de 26 de julho de 2013 (UTC)[responder]
Mas se está discutindo uma alteração técnica, não uma alteração de procedimentos "da comunidade". Se os artigos de 300B atualmente não são eliminados após a criação "pela comunidade", por quê se impediria a criação deles; por você achar que não deveriam existir? Se é sua opinião apenas, então você pode propor a eliminação depois deles serem criados, mas não pode impedir a criação, pois "a comunidade" talvez queira que sejam criados. Eu não acredito que a maioria dos editores marcaria esse seu artigo de 357B para eliminação... Mas isso é suposição, seria preciso conferir o histórico de eliminações para afirmar algo com embasamento em fatos. Pelo que entendi da proposta do Rjclaudio, ele está querendo apenas mudar a regra técnica para ela se adequar melhor à nossa realidade, e não mudar a nossa realidade através de uma regra técnica.--Mister Sanderson (discussão) 19h25min de 26 de julho de 2013 (UTC)[responder]
Citação: mudar a nossa realidade através de uma regra técnica. os fins justificam os meios, se é para aumentar a qualidade das informações contidas na Wikipédia está valendo. Mas isso é o que eu acho, infelizmente sempre vai ter um monte de gente defendendo tudo quanto é lixo de "artigo" de meia dúzia de palavras. Vulcan (discussão) 19h33min de 26 de julho de 2013 (UTC)[responder]
A ideia do limite técnico não é extinguir a oposição, mas poupar "a comunidade" de ter que lidar com algo evidentemente indevido. Se "a comunidade" quer artigos de 300B, você não pode querer impedi-la de recebê-los, deveria se limitar a somente enviá-los para PE.--Mister Sanderson (discussão) 19h40min de 26 de julho de 2013 (UTC)[responder]
Caso queiram seguir na direção de impedir edições com menos bytes do que um certo valor N, mas esse valor N seja superior àqueles para os quais temos alguns registros, sugiro que decidam um valor N a ser testado (e que tipo de editores) e escolham um número de dias durante os quais um filtro ficaria apenas registrando ocorrências (sem aviso/impedimento), para que possam analisar as detecções e garantir que todas (a "grande" maioria? X %?) deveriam ter sido impedidas. Se o resultado for considerado aceitável pela comunidade, configura-se o filtro para avisar e/ou impedir. Helder 19h14min de 26 de julho de 2013 (UTC)[responder]
Eu faria logo um registro das páginas criadas com até 150 bytes, seguindo o exemplo da wiki.en. Aí depois analisamos os artigos que são criadas e vamos ajustando o valor. Rjclaudio msg 19h19min de 26 de julho de 2013 (UTC)[responder]
150 é um "X é Y" sem referências, e isso hoje é enviado para eliminação(ou pelo menos é isso que deveria ocorrer). Sugiro testar com 200, 250 e 300 para qualquer tipo de usuário e ver os resultados(quanto ao tempo eu não sei, fica a critério de quem fizer o teste). Vulcan (discussão) 19h24min de 26 de julho de 2013 (UTC)[responder]
Bom, como um filtro que só registra não atrapalha as edições registradas, poderia ser feito o teste com o maior valore que acharem plausível e, com base na análise destes registros, decidir qual é o maior valor possível que não causa mais do que X % de falsos positivos. Helder 20h24min de 26 de julho de 2013 (UTC)[responder]
Concordo, o filtro 67 (apenas etiqueta) pode ser configurado com um número arbitrário superior. Porém, o 66 e 53 não devem ser alterados tão drasticamente para um valor superior se não for consensual esta implementação. OTAVIO1981 (discussão) 20h30min de 26 de julho de 2013 (UTC)[responder]
Isso. Helder 20h54min de 26 de julho de 2013 (UTC)[responder]
Não existem provas de que é impossível que um artigo de 150B tenha referências, nem de que hoje todos os artigos de 150B vão para eliminação, o que você disse ser certeza. Como já existe o filtro 113 pra pegar quais páginas novas não têm referências, acho que essa questão das fontes deveria ser tratada com ele e não com o 66, que só mede o tamanho.--Mister Sanderson (discussão) 21h08min de 26 de julho de 2013 (UTC)[responder]
O da Wikipédia anglófona não se aplica aos autoconfirmados, e o nosso se aplicaria, mas o de lá dá muito certo (pela pequena amostra que conferi), então também acho que 150B prum primeiro teste é um valor legal. Acho que o prazo tem de ser no mínimo um mês.--Mister Sanderson (discussão) 20h32min de 27 de julho de 2013 (UTC)[responder]
  • Citação: MisterSanderson escreveu: «Pelo que entendi da proposta do Rjclaudio, ele está querendo apenas mudar a regra técnica para ela se adequar melhor à nossa realidade, e não mudar a nossa realidade através de uma regra técnica.» Exato, Mister!! Os filtros devem ser adaptados para a realidade do que acontece nos processos de eliminação. A partir do momento que mais artigos com N bytes serem mantidos pelas vias tradicionais de edição, é preciso ponderar se o que está sendo desautorizado é significativo ou não. O ideal é que os filtros não impeçam edições benéficas em nenhum percentual mas não sendo o ideal atingível, pelo menos um percentual pequeno. Tentar impor uma nova dinâmica na comunidade através dos filtros é errado ao meu ver. Fui eu quem propus estes valores novos para os filtros mas conforme disse o 67 pode ser muito superior pois somente etiqueta. A partir de uma análise dos resultados podemos mensurar melhor a linha de corte da nossa realidade.OTAVIO1981 (discussão) 20h39min de 26 de julho de 2013 (UTC)[responder]

Precisaria testar com outros valores e fazer uma tabela resumindo os resultados para analisar melhor, mas para já eu Concordo com essa proposta do Rjclaudio, 50 bytes é um nível bem seguro e as outras etiquetas não impedem nada, na prática não irá mudar quase nada, apenas impedir uma quantidade muito pequena de casos, mas já ajuda. Vulcan (discussão) 05h34min de 27 de julho de 2013 (UTC)[responder]

A intenção é que este trabalho de melhorar os filtros seja contínuo e quanto mais pessoas se envolverem mais fácil fica. Infelizmente estas melhorias levam tempo tanto para implementar quanto para esperar uma quantidade de dados suficiente para concluir alguma coisa. OTAVIO1981 (discussão) 17h47min de 27 de julho de 2013 (UTC)[responder]
Aliás poderíamos criar um pedido de opinião perguntando se a comunidade aceita novas inclusões de artigos mínimos. Caso a maioria opte por não, é só aumentar o limite do filtro, para 300 como eu falei ou valores maiores. A inclusão de mínimos talvez tenha feito algum sentido no passado, para crescer horizontalmente, precisamos criar uma restrição a esses artigos mínimos na minha opinião, já passou da hora da Wikipédia crescer verticalmente(aumentar a qualidade). Vulcan (discussão) 19h08min de 27 de julho de 2013 (UTC)[responder]
Acho uma péssima idéia criar um pedido de opinião sem coletar informações para a comunidade poder avaliar o que está sendo pedido. Que tal você tomar conta de um filtro na faixa de 300 bytes e analisar os falsos positivos?OTAVIO1981 (discussão) 20h08min de 27 de julho de 2013 (UTC)[responder]

Tem um ponto importante a ser visto. Alguns usuários novatos criam uma primeira versão do artigo como um "x é y", e pouco depois expandem para um esboço. Por exemplo, Fotografia (álbum), criado com 80 bytes, e vinte minutos depois estava com 1500 bytes. Se tivessemos desautorizado a criação dessa primeira versão por ter pouco conteúdo (ou mesmo se só tivessemos mostrado o aviso), ele teria criado a página como esboço ou teria desistido de criar? Qual a linha de corte entre desautorizar, avisar e etiquetar? Rjclaudio msg 22h34min de 27 de julho de 2013 (UTC)[responder]

Se o aviso dado ao ter a criação bloqueada fosse claro, não haveria nenhum impedimento para os editores continuarem expandindo antes de salvar, ao invés de fazer salvamentos sucessivos, por isso acho que essa questão de 'impedir a criação desestimula a edição' é irrelevante... É muito menos desestimulante dizer logo "ei, ficou muito pequeno, escreva mais antes de salvar" do quê deixar ele salvar, pensar que está tudo OK, ir embora e ter uma surpresa desagradável quando voltar, ou seja, ver que apagaram a página dele e nem saber o motivo. Também se poderia especular se ele não tentou criar um artigo de 30B, foi impedido e criou esse de 80B em seguida... --Mister Sanderson (discussão) 23h04min de 27 de julho de 2013 (UTC)[responder]
Concordo com o MisterSanderson. É só impedir e avisar "Por favor desenvolva um pouco mais o artigo antes de gravar a página, se estiver impossibilitado de fazer isso agora, copie e cole o texto para algum editor de texto e salve. Quando ele atingir no mínimo X caracteres ele pode ser enviado. Lembrando que o artigo deve possuir fontes e cumprir verificabilidade e notoriedade para ser mantido. Obrigado e boas edições!" Vulcan (discussão) 20h37min de 1 de agosto de 2013 (UTC)[responder]

Eu já criei o Filtro 114 para páginas até 150b, número seguindo a wiki.en só para ver como fica. Pelos 18 registros até agora só um artigo se manteve (o exemplo que dei acima). Rjclaudio msg 22h37min de 27 de julho de 2013 (UTC)[responder]

Cat Scan[editar código-fonte]

Sobre o tamanho, pode ficar fazendo algumas simulações no Cat Scan para ver o que encontra. Veja essa por exemplo, utilizei a categoria dos sem fontes tudo o que for menor que 150 Bytes: Cat Scan.

Apareceu:

Pode ser testado com várias outras categorias e valores, mas pelo que andei testando 150 bytes praticamente só encontra esses "X é Y". Vulcan (discussão) 19h49min de 1 de agosto de 2013 (UTC)[responder]

Ambos inúteis e inadequados, de fato. Mas veja: o primeiro, de texto mesmo, não tem 146B, tem 63B; o segundo, não tem 147B, tem 77B. Quando um novato tentar criar um X é Y, ele não vai etiquetar, categorizar e colocar a predefinição de esboço que nem os artigos estavam. Por isso, um artigo recém-criado com 150B não é o mesmo que esses exemplos que você deu.--Mister Sanderson (discussão) 20h54min de 1 de agosto de 2013 (UTC)[responder]
Sim, tem artigo que nasce com menos de 100 bytes então um filtro impedindo menor que 150 já barraria quase todos os X é Y, o que já ajudaria muito reduzindo a quantidade de patrulhamento, manutenção e envios para a eliminação, seria de grande ajuda para a Wikipédia lusófona. Vamos ficar no aguardo dos testes que estão sendo feitos com outros valores(sugiro testar até 500 bytes em faixas de 50, se isso for possível), mais isso talvez demore semanas/meses para ter uma quantidade boa de dados. Mas fazer como os anglófonos(150) já nos ajudaria, minha posição a respeito do assunto é que eu Concordo com qualquer valor até 150 para impedir a criação. Vulcan (discussão) 21h48min de 1 de agosto de 2013 (UTC)[responder]
Sim, não estou dizendo que seri ruim bloquear artigos de menos de 100B. Estou dizendo que os exemplos que você deu não são de artigos de 150B, são de artigos de 60~80B, perto da metade do tamanho. Talvez artigos de 150B possam ser aceitáveis; vamos esperar o resultado do período de testes para saber, ok?--Mister Sanderson (discussão) 16h59min de 2 de agosto de 2013 (UTC)[responder]
Ele consegue captar entradas de dicionário também(que geralmente são X é Y), achei um caso aqui Especial:Registro_de_abusos/1365533, que foi uma definição de dicionário. Mas não só é útil para barrar mínimos, é extremamente útil para barrar vandalismos também, vejam vários casos aqui(claro que a maioria é por IPs...). Vulcan (discussão) 22h01min de 1 de agosto de 2013 (UTC)[responder]
Os filtros para impedir artigos novos de vandalismos são o 6, 52 e o 64 que me lembro de cabeça. Deve haver outros. É perfeitamente possível criar um artigo que não seria filtrado pelo 114 e que seria um caso patente de vandalismo então não vamos misturar as funções dos filtros até porque é mais sensato justificar o modo desautorizar para o filtro 52 do que para o 114.OTAVIO1981 (discussão) 12h11min de 2 de agosto de 2013 (UTC)[responder]