Ir para o conteúdo

Wikipédia:Robôs/Pedidos de aprovação/pedidos

Origem: Wikipédia, a enciclopédia livre.

Pedidos de aprovação em curso

[editar código]


pedidoediçõescontadorlogsblock userblock logflag logflag botSUL util
Pedidos de tarefas: 1, 2, 3

Operator: MrNinja

Automatic or manually assisted: Automático

Programming language(s): Python

Function summary: Substitui "== Veja também ==" por "== Ver também ==" e "== Links externos ==" por "== Ligações externas =="

Edit period(s) (e.g. continuous, daily, one time run): Diário

Edit rate requested: 6 edições por minuto

Already has a bot flag (Y/N): Não

Function details: Usando a função replace da biblioteca pywikibot, o bot irá encontrar as expressões "== Veja também ==" e "== Links externos ==" nos artigos e substitui-las, respectivamente, por "== Ver também ==" e "== Ligações externas ==", em conformidade com o livro de estilo.

Discussion

[editar código]

pedidoediçõescontadorlogsblock userblock logflag logflag botSUL util
Pedidos de tarefas: 1, 2, 3

Operator: MrNinja

Automatic or manually assisted: Automático

Programming language(s): Python

Function summary: Remove marcações de eventos atuais expiradas

Edit period(s) (e.g. continuous, daily, one time run): Diário

Edit rate requested: 6 edições por minuto

Already has a bot flag (Y/N): Não

Function details: Usando a função replace da biblioteca pywikibot, o bot irá percorrer a lista de páginas listadas na Categoria:!Marcações de eventos recentes expiradas e remover a predefinição {{Evento atual}} inserida.

Discussion

[editar código]

pedidoediçõescontadorlogsblock userblock logflag logflag botSUL util
Pedidos de tarefas: 1, 2, 3

Operator: MrNinja

Automatic or manually assisted: Automático

Programming language(s): Python

Function summary: Remove ícones de bandeiras das infocaixas

Edit period(s) (e.g. continuous, daily, one time run): Contínuo

Edit rate requested: 6 edições por minuto

Already has a bot flag (Y/N): Não

Function details: Em conformidade com WP:ÍCONESINFO, o bot irá percorrer os artigos afluentes de Template:Info/Filme, Template:Info/Biografia e Template:Info/Música/artista, verificar a infocaixa e remover códigos de predefinições no formato {{XXX}} que exibem bandeiras com o nome do país (ex: {{BRA}}), ficando somente o nome do país com hiperligação (ex: Brasil), sem o ícone de bandeira. Para isso, ele lê a lista de mapeamento da página User:IconBot/Mapa.

Por exemplo, o artigo sobre o filme Orfeu Negro, possui três bandeirinhas no parâmetro "país" da infocaixa, dando um destaque indevido nesse campo em relação aos demais, então o bot faria as seguintes substituições:

 BrasilBrasil

 FrançaFrança

 ItáliaItália

É importante diferenciar essas predefinições no formato {{XXX}} daquelas que exibem somente a bandeira no formato {{XXXb}} (ex: {{BRAb}}), pois estas o bot não processa.

Discussion

[editar código]

pedidoediçõescontadorlogsblock userblock logflag logflag botSUL util

Operator: EPorto (WMB)

Automatic or manually assisted: Automático

Programming language(s): Python

Function summary: Arquivamento de referências adicionadas através das Mudanças recentes

Edit period(s) (e.g. continuous, daily, one time run): Semanalmente

Edit rate requested: 5 edições por minuto

Already has a bot flag (Y/N): N

Function details: Um problema identificado na Wikipédia e na internet em geral, é o apodrecimento de links, em que URLs externas se tornam inativas e não fazem mais a ligação ao conteúdo que inicialmente apontavam. Isso implica que a informação que é referenciada por uma URL deixa pode deixar de ser verificável, o que compromete a confiabilidade do conteúdo e a integridade do conhecimento na Wikipédia. Resultados preliminares de um estudo do Grupo de Pesquisa em Grupo de Pesquisa em Ciência da Web e Bibliotecas Digitais (WebSciDL) da Universidade Old Dominion, afirmam que a vida mediana de uma URL é de 2.3 anos. Com base nisso, e pensando no pedido de criação de um robô de arquivamento de referências na Wikipédia em português feito na Lista de Desejos Tecnológicos da Lusofonia, desenvolvemos a proposta no contexto de uma mentoria Outreachy. O código do robô está disponível em um repositório do GitHub. O fluxo de ações do robô está descrito abaixo:

  1. Robô vigia as Mudanças recentes;
  2. Se a revisão contém referências de citação ({{citar web}}, {{citar periódico}} etc), o robô verifica se o link está arquivado;
  3. Se o link não está arquivado, o robô arquiva o link no WaybackMachine e coloca na fila para ser inserido no artigo;
  4. Depois de um período (estou propondo uma semana--para garantir que as edições de um artigo possam ser executadas ou desfeitas sem conflitos com as edições do robô), o robô pega a última revisão do artigo e altera as citações que estavam na fila para serem substituídas, inserindo os parâmetros adequados (arquivourl, arquivodata e urlmorta, por exemplo).

Discussion

[editar código]

Algumas dúvidas minhas quanto ao funcionamento do bot:

  • É verificado o parâmetro |wayb=? Muitos artigos utilizam esse parâmetro, de modo que é redundante haver |arquivourl= e |arquivodata= se a predefinição já possuir |wayb=.
  • Se a url estiver morta e não haver nenhum arquivo, por acaso ele insere |urlmorta=sim? (É útil para garantirmos a verificabilidade do artigo, ficando mais fácil de identificar as referências mortas)
  • O arquivo é extremamente importante para o {{citar web}}, mas noutros casos nem tanto. A maioria dos artigos de periódicos está disponível online, mas o arquivo nem sempre é necessário, muitas vezes é mais importante um identificador como o doi do que um arquivo no Web Archive. Além de que muitos artigos são de acesso restrito, então de nada adianta o arquivo.
  • Para mim ficou meio ambíguo, o bot só verifica as referências adicionadas na edição ou ele verifica todas as referências do artigo?

Vinickw 16h23min de 15 de setembro de 2025 (UTC)[responder]

@EPorto (WMB): parece uma proposta similar ao InternetArchiveBot. É isso mesmo? stanglavine msg 23h59min de 27 de setembro de 2025 (UTC)[responder]

@Vinickw e Stanglavine: Olá, obrigado pelas mensagens. Eu pedi ao @ACorrêa (WMB) que implementasse as sugestões e respondesse as suas colocações. Nós dois iremos operar o bot, se for possível. Abraços, --EPorto (WMB) (discussão) 21h44min de 30 de setembro de 2025 (UTC)[responder]
Olá pessoal,
@Vinickw, o parâmetro |wayb= não é atualmente verificado, você tem razão sobre a redundância. É uma atualização relativamente direta de se implementar no código do bot, o que estamos fazendo.
Sobre inserir |urlmorta=, sim o bot insere esse parâmetro caso a URL esteja morta.
Sobre o {{citar web}}, esse é o foco do bot. Ele não arquiva URLs doi.org, talvez possamos incluir outras URLs para ignorar o arquivamento, como de alguns periódicos. Se você tiver uma lista desses periódicos ou links para ignorar, nós agradecemos.
Ele verifica todas as referências do artigo, não só as que foram identificadas no diff das mudanças recentes.
@Stanglavine, são bots parecidos, mas com funcionamentos diferentes. O InternetArchiveBot funciona na base da solicitação intencional do usuário, além de fazer as edições com a conta do usuário que solicitou. Pelos meus testes, ele não arquiva todas as URLs disponíveis, parece arquivar apenas as que já morreram. O nosso bot, além de funcionar constantemente, arquivaria todas as URLs disponíveis para arquivamento, fazendo edições na conta do bot, o que torna essas edições mais rastreáveis.
Abraços, ACorrêa (WMB) (discussão) 21h45min de 30 de setembro de 2025 (UTC)[responder]
@ACorrêa (WMB): Olá! Obrigado pelos esclarecimentos! O IABot teve algumas controvérsias em nossa wiki, mas pelo que recordo todas causadas por problemas de formatação e compatibilidade com nossos templates, o que não acho que seja o caso aqui já que estamos falando de um código pensando especificamente para nossa wiki.
Sobre o ponto apresentado por Vinickw, não seria interessante utilizarmos diretamente o parâmetro "wayb", ao invés de "arquivourl" e "arquivodata"? Melhor dizendo, quado o robô inserir o link para um arquivo, que isso seja feito utilizando o parâmetro "wayb"? Eu vejo algumas vantagens nessa abordagem: 1) limpeza da predefinição de referência, já que links de arquivo normalmente são longos; 2) padronização de datas, obtidas diretamente do ID da referência; 3) facilidade para identificar esses links para arquivos de modo programático, caso outras ferramentas precisem lidar com essas informações no futuro.
Seria válido? É possível implementar? stanglavine msg 14h06min de 2 de outubro de 2025 (UTC)[responder]
Oi @Stanglavine, realmente é mais vantajoso usar o wayb diretamente, obrigado pela sugestão, vamos implementar isso! Abraços. ACorrêa (WMB) (discussão) 17h40min de 15 de outubro de 2025 (UTC)[responder]

Olá @Stanglavine: e @Vinickw:. Implementamos a inclusão do parâmetro |wayb=, como nesta edição: 71038064]. Sobre verificar as referências incluídas ou todas do artigo, acabei me equivocando e o bot na verdade arquiva apenas as URLs inseridas no diff de edição. Porém, podemos modificá-lo para arquivar todas URLs no artigo. O que preferem? Abraços, ACorrêa (WMB) (discussão) 17h58min de 17 de outubro de 2025 (UTC)[responder]

@ACorrêa (WMB): se for possível, me parece mais vantajoso já aproveitar a edição e arquivar todas as URLs do artigo. stanglavine msg 18h52min de 17 de outubro de 2025 (UTC)[responder]
@Stanglavine, beleza, realmente é uma boa. Sobre a ativação, qual é a sua opinião: mantemos a existência de predefinições "citar" no diff das Mudanças Recentes para a ativação, ou mudamos para fazer o bot vasculhar todos artigos editados? ACorrêa (WMB) (discussão) 16h33min de 23 de outubro de 2025 (UTC)[responder]
Vamos manter a necessidade das predefinições "citar" para acionar o bot, até para evitar que absolutamente todas as edições o acionem, o que me parece um pouco excessivo. Quando estiver pronto, pode realizar os testes de acordo com a WP:POLBOT. stanglavine msg 20h49min de 27 de outubro de 2025 (UTC)[responder]
@ACorrêa (WMB): sobre o "wayb", ficou ótimo, é isso mesmo! stanglavine msg 18h53min de 17 de outubro de 2025 (UTC)[responder]

Oie @Stanglavine:, já fiz os ajustes no bot. Também implementei uma função na linha de comando para verificar algum artigo específico. Tem algum artigo no qual você gostaria que eu rodasse o bot? Para fase de testes, pensei em escolher algum dia recente para passar pelas Mudanças Recentes (ex. ontem), até atingir as 50 edições da política. O que acha? ACorrêa (WMB) (discussão) 16h01min de 5 de novembro de 2025 (UTC)[responder]

@ACorrêa (WMB): Está ótimo, pode rodar! stanglavine msg 18h57min de 5 de novembro de 2025 (UTC)[responder]
Oi @Stanglavine, rodei o bot em algumas edições hoje verificando as mudanças recentes de ontem. Deu certo! Muitas URLs foram arquivadas. Também, os artigos grandes demoram mais do que eu esperava. Pode dar uma olhada nas contribuições do bot aqui. ACorrêa (WMB) (discussão) 22h33min de 10 de novembro de 2025 (UTC)[responder]
Oi @ACorrêa (WMB)! Feliz por ter funcionado! Precisamos revisar algumas edições:
  • Vitória Sport Clube: foram realizadas alterações que não tem relação com o arquivamento das URLs (por exemplo: linha 93);
  • Romário: em algumas edições, foi adicionado um espaço em branco antes do fechamento da chamada da predefinição, da seguinte forma: |wayb=12345678 }} ao invés de |wayb=12345678}}. Isso foi proposital? Como aconteceu em alguns casos e não em outros, acho importante conferir e padronizar (por exemplo: linha 562);
  • Sporting Clube de Braga: na linha 180, também ocorreram alterações não relacionadas;
  • Kayla Harrison: na linha 78, mesma situação (alterações não relacionadas);
  • É preciso inserir no resumo da edição a indicação de que está sendo realizada por um robô. O mais usual é algo como [[Wikipédia:Robôs|bot]]: Arquivamento de X URLs ou [[Wikipédia:Robôs|robô]]: Arquivamento de X URLs
Poderia verificar? Obrigado! stanglavine msg 16h37min de 13 de novembro de 2025 (UTC)[responder]
Oie @Stanglavine, descobri o que foi. Todos esses erros são do mesmo bug: o bot estava guardando na memória um template anterior (de um verbete anterior), e reutilizando ele na substituição no novo verbete. Consertei. Também incluí esse link pra página Wikipédia:Robôs. Agora, para marcar a edição como robô, com aquele "b"zinho, precisa do estatuto ou é um parâmetro na edição pela API? Ah, e se desejar, posso rodar ele mais um pouco novamente, para verificar a inexistência desse bug. Abraços, ACorrêa (WMB) (discussão) 18h30min de 14 de novembro de 2025 (UTC)[responder]
@ACorrêa (WMB): Ambos, precisa do estatuto para funcionar, mas também precisa ser definido via parâmetro na requisição para a API (veja o parâmetro bot aqui). Conseguimos rodar mais algumas edições (máximo 50) para testar novamente? Obrigado pelas correções! stanglavine msg 01h26min de 15 de novembro de 2025 (UTC)[responder]
Oi @Stanglavine, rodei mais edições com o ajuste realizado. Abraço! ACorrêa (WMB) (discussão) 20h33min de 18 de novembro de 2025 (UTC)[responder]
Ah, e sobre o espaço, não é algo que controlamos. Estamos usando a lib mwparserfromhell na adição do template. Parece que teve um espaço porque, nesse template, existe um espaço entre os parâmetros, aí o parser manteve o padrão. É uma hipótese. ACorrêa (WMB) (discussão) 20h14min de 14 de novembro de 2025 (UTC)[responder]
Tranquilo, realmente parece seguir um padrão. Nada grave. stanglavine msg 01h28min de 15 de novembro de 2025 (UTC)[responder]
@ACorrêa (WMB) Olá!
Parece que o erro persiste (edições não relacionadas). Pode conferir? stanglavine msg 23h55min de 19 de novembro de 2025 (UTC)[responder]
Oie @Stanglavine, desculpe a demora. Fiz o ajuste, era o mesmo problema mas dentro do mesmo artigo. Coloquei essas edições problemáticas na test.wikipedia e funcionou. Ativei o bot novamente para rodar em mais algumas edições hoje. ACorrêa (WMB) (discussão) 18h11min de 1 de dezembro de 2025 (UTC)[responder]
Oi @ACorrêa (WMB)! Revisei as edições e não encontrei mais aquele erro, ficou ótimo!
Porém, notei uma outra questão, que é a inserção do parâmetro urlmorta=sim em links que não estão inativos. Verifiquei isso nas três primeiras edições: aqui, aqui e aqui. Poderia checar? stanglavine msg 11h33min de 3 de dezembro de 2025 (UTC)[responder]
Oi @Stanglavine, show! Então, eu percebi isso também, e suspeito que se refere ao bloqueio de bots em alguns sites. Eu tentei acessar esses sites pelo terminal, com curl e retornaram um timeout pra mim, embora no navegador tenha funcionado. Como você acha melhor lidar com isso? Podemos remover essa funcionalidade do bot. ACorrêa (WMB) (discussão) 16h12min de 3 de dezembro de 2025 (UTC)[responder]
@ACorrêa (WMB) essa função (adicionar urlmorta=) é útil, mas se não conseguirmos definir com precisão se a URL está ou não está morta seria mais prudente não adicionar, até porque a {{Citar web}} muda o layout da referência quando há esse parâmetro, direcionando o usuário para o arquivo, quando este poderia acessar diretamente o site original, o que é bem mais interessante em termos de verificabilidade. stanglavine msg 16h56min de 3 de dezembro de 2025 (UTC)[responder]
@Stanglavine beleza, concordo contigo. Vou remover essa funcionalidade, então. Rodo mais algumas edições hoje, sem essa funcionalidade? ACorrêa (WMB) (discussão) 17h00min de 3 de dezembro de 2025 (UTC)[responder]
@ACorrêa (WMB) Isso! Só para termos uma rodada de testes 100%! stanglavine msg 21h47min de 3 de dezembro de 2025 (UTC)[responder]
@Stanglavine Rodei o bot ontem, e no meio de um crash e re-rodar percebi que ele acabou editando a mesma página mais de uma vez (por conta de URLs que falharam antes mas que deram certo depois). Aí eu coloquei um filtro de não editar o mesmo verbete caso ele tenha sido recentemente editado pelo bot nos últimos 7 dias. O que acha? Implementei esse ajuste e rodei mais 11 edições hoje. ACorrêa (WMB) (discussão) 18h27min de 5 de dezembro de 2025 (UTC)[responder]
@ACorrêa (WMB) Acho válido!
  • Em Blue Exorcist, na referência 1, foi inserido um arquivo que aparentemente não existe (wayb=20251204165042);
  • Na mesma página, na referência 5, foi inserido um arquivo (wayb=20251204165541) que redireciona para outro arquivo (wayb=20241213002846), fazendo com que a data do arquivamento exibida na referência (04 dez. 2025) seja diferente da data do arquivo linkado (13 dez. 2024). Seria possível identificar esses redirecionamentos, para já inserir o wayb correto e exibir a data precisa do arquivo na referência? Inclusive, quando eu procuro por arquivos para a referência original, não encontro aquele inserido pelo bot.
stanglavine msg 23h02min de 5 de dezembro de 2025 (UTC)[responder]
Oi @Stanglavine, realmente bem estranho. Vi nos logs que ambas foram obtidas pela Availability API. Coloquei uma linha nos logs para printar toda a resposta, talvez os campos available e status possam ajudar a ignorar URLs inválidas. Ambas foram retornadas por essa API, estranho a API retornar arquivamentos inexistentes. Rodei esses mesmos links numa sandbox na wikipédia de testes, e dessa vez os links retornados pela availability API deram certo. Como acha melhor proceder? ACorrêa (WMB) (discussão) 16h43min de 8 de dezembro de 2025 (UTC)[responder]
@ACorrêa (WMB) o que define se o bot vai realizar um novo arquivamento no Wayback ou inserir o link para um arquivo já existente? stanglavine msg 01h33min de 9 de dezembro de 2025 (UTC)[responder]
@Stanglavine ele primeiro tenta arquivar, com até 3 tentativas, depois ele tenta usar a availability API. ACorrêa (WMB) (discussão) 16h02min de 9 de dezembro de 2025 (UTC)[responder]
@ACorrêa (WMB) entendi, os dois arquivos problemáticos foram criados pelo bot, certo? No caso o wayb=20251204165042 e wayb=20251204165541? Estou presumindo isso pela data de criação dos arquivos, que ocorreu no mesmo dia da edição.
Se isso for verdade, por que o bot precisou recorrer à Availability API, como apontam os logs? stanglavine msg 18h53min de 9 de dezembro de 2025 (UTC)[responder]
@Stanglavine, pois é, nos logs mostra que a Wayback não retornou arquivos na API, eles não foram criados. Tanto que não funcionam. A availability parece que retornou uma "tentativa de arquivamento", pois ambos redirecionam né. ACorrêa (WMB) (discussão) 19h20min de 9 de dezembro de 2025 (UTC)[responder]
O que posso fazer é incluir um filtro de não incluir arquivamentos pela Availability se o timestamp for muito recente (24 horas talvez), o que pode indicar um arquivamento falho. ACorrêa (WMB) (discussão) 19h21min de 9 de dezembro de 2025 (UTC)[responder]
@ACorrêa (WMB) Isso! Acho que pode ajudar. Vamos tentar implementar esse filtro e depois testar com mais alguns artigos na testwiki. Se der tudo certo por lá, trazemos o teste para cá novamente! stanglavine msg 23h50min de 9 de dezembro de 2025 (UTC)[responder]
Oi @Stanglavine! Além de fazer esse ajuste, inverti a ordem para que o bot tente encontrar arquivos existentes antes de arquivar, isso aumentou bastante a velocidade. Inclusive no futuro quero implementar a feature de buscar o arquivo mais próximo da data de acesso declarada na referência heheh. Fiz os testes na testwiki aqui.
A equipe profissional da WMB está entrando de férias. Assim, eu volto aqui na segunda quinzena de janeiro. Te desejo um feliz Natal e um ótimo Ano Novo, e muito obrigado de verdade por todo esse apoio e debuggging feito no bot. Até mais! ACorrêa (WMB) (discussão) 20h42min de 16 de dezembro de 2025 (UTC)[responder]