Wikipédia:Esplanada/propostas/Conversor de idiomas para as variantes do português (30mai2010)

Origem: Wikipédia, a enciclopédia livre.

Conversor de idiomas para as variantes do português (30mai2010)

Proposta (esboço inicial)[editar código-fonte]

Permitir que a sintaxe do Conversor de Idiomas do MediaWiki (descrito a seguir) possa ser utilizada na Wikipédia lusófona para ampliar o suporte às diferentes variantes da língua portuguesa, de modo a possibilitar a leitura de todos os artigos em quaisquer das variantes do nosso idioma. O sistema permite que a escolha da variante preferida seja feita tanto por leitores e colaboradores anônimos quanto por aqueles que possuem uma conta:

  • Anônimos:
    1. Através de um clique em um menu no topo da página, como na imagem ao lado.[1] ou
    2. Por meio da inclusão de ?variante=pt-<código da variante> ao endereço da página[2]
  • Com conta:
    1. Através de qualquer dos procedimentos acima; ou
    2. Definindo sua opção na página Especial:Preferências (ver imagem à direita), para que seja lembrada sempre que estiver logado.

Para experimentar na prática um recurso semelhante a este conversor do MediaWiki (não é o mesmo!), usado nos Wikisources para realizar a modernização automática da ortografia de alguns textos, utilize o menu que aparece no topo da página Elementos de Arithmetica/Capítulo 1.

A exibição dos artigos usando palavras e expressões da variante escolhida é feita automaticamente pelo MediaWiki, com base nos seguintes recursos do Conversor de Idiomas:

  • Tabelas de conversão personalizáveis: usadas para converter automaticamente palavras e expressões que possuem uma correspondente exata na variante escolhida pelo leitor. Tais tabelas fariam parte do espaço nominal MediaWiki (por serem parte do sistema) e seriam mantidas pela comunidade (que teria a sua disposição uma página do domínio Wikipedia para sugerir a adição ou remoção de regras de conversão às tabelas). Para ver exemplos dessas tabelas e ajudar na revisão e ampliação das mesmas, consulte: MediaWiki:Conversiontable/pt-pt (Portugal) e MediaWiki:Conversiontable/pt-br (Brasil).
  • Marcação manual: feita por qualquer colaborador diretamente nos artigos, predefinições e demais páginas do projeto, para complementar as tabelas globais tratando os casos específicos em que não há uma "regra de conversão" aplicável globalmente que possa ser adicionada às tabelas de conversão personalizáveis do espaço nominal MediaWiki.

A sintaxe das tabelas e da marcação manual é explicada em detalhes mais adiante.

Apanhado histórico[editar código-fonte]

É de conhecimento dos colaboradores da Wikipédia lusófona que "desde sempre" existe uma certa "tensão" que coloca em confronto editores que utilizam uma e outra variante da língua portuguesa. Em suma, a cooperação entre os muitos voluntários é sempre permeada por uma disputa "PT-PT versus PT-BR". Esta situação desagrada a todos que precisem reverter uma edição como esta, e é abordada em maior profundidade em páginas como:

Conforme a primeira destas páginas, o caminho escolhido no passado (2005, 2006 e 2007) para tentar resolver a situação não obteve resultados: todas as tentativas de cisão da Wikipédia lusófona foram recusadas pela comunidade, pelos motivos colocados em cada uma das propostas (e nos arquivos).

Vale ressaltar que este não é um problema exclusivo da comunidade lusófona, pois outros idiomas também possuem diferentes níveis de variações de uma região para outra. Um caso que pode parecer muito mais difícil de resolver do que o da Wikipédia em português é o da Wikipédia em chinês: no caso deles as diferenças incluem também o sistema de caracteres usados na escrita.

Em 2005, foi iniciada a implementação de um "conversor de idiomas"[3] para fazer a conversão, por exemplo, entre o chinês tradicional e o chinês simplificado. Os detalhes podem ser vistos na página do MetaWiki sobre Conversão automática entre o chinês simplificado e o chinês tradicional (em inglês) e na página da Wikipédia chinesa 帮助:中文维基百科的繁简、地区词处理 (tradução do Google para português).

Uma vez desenvolvido o sistema, ele começou a ser adaptado para que fosse útil também a outros idiomas, como é o caso da Wikipédia em língua sérvia. Atualmente é utilizado pelos seguintes idiomas: chinês gan, cazaque, curdo, língua sérvia, tadjique e chinês.

Alguns meses atrás, perguntou-se[4] na lista wikitech sobre a possibilidade de se usar o recurso para melhorar a situação aqui na Wikipédia lusófona. Tim Starling (um dos desenvolvedores do MediaWiki) disse,[5] entre outras coisas, que Citação: «It's possible to handle any pair of languages which are separated only by vocabulary, and transliteration or spelling. It's only differences in grammar, such as word order, that would give it trouble.»

Sendo assim, é tecnicamente possível implementar o Conversor de Idiomas de modo que os leitores possam escolher qual a variante desejam utilizar ao consultar a Wikipédia. Provavelmente a conversão pode ser feita também para outras variantes além da de Portugal e da do Brasil (mas é preciso confirmar isto com os desenvolvedores).

A implementação do recurso permitiria que cada pessoa pudesse usar ou colaborar em uma única Wikipédia lusófona, podendo ainda escolher em que variante prefere ler os artigos resultantes deste trabalho colaborativo.

Notem, porém, que o recurso não foi projetado inicialmente para uso na Wikipédia lusófona (mas sim para a Wikipédia chinesa), então é provável que seja necessária alguma interação entre a comunidade lusófona, a comunidade chinesa e os desenvolvedores (seja através da lista wikitech, ou de pedidos no bugzilla:), enquanto se discute a possibilidade e adequadabilidade da adaptação e implementação do recurso por aqui.

Seria interessante que os membros da comunidade expressassem seus pontos de vista sobre as implicações da mudança, se é desejável ou não, quais os prós e quais os contras, etc... na página de discussão, e que esta página fosse atualizada conforme a troca de ideias levantasse aspectos importantes sobre esta proposta.

A seguir o recurso é descrito em maior detalhe e são dados alguns exemplos do mesmo em funcionamento.

O sistema de conversão[editar código-fonte]

Algumas características do sistema, conforme a página do MetaWiki sobre Conversão automática entre o chinês simplificado e o chinês tradicional (em inglês):

  • Utiliza tabelas de conversão personalizadas (customisable conversion tables) que ficam no espaço nominal MediaWiki:;
  • Permite a marcação manual (manual markup) de trechos dos artigos para que seja feita (ou impedida) a conversão de certas partes;
  • Pode fazer a conversão tanto do conteúdo quanto dos títulos dos artigos;
  • Se um artigo tiver títulos diferentes conforme a variante do português (por exemplo, polinômio (português brasileiro) ou polinómio (português europeu)), um link [[polinômio]] irá detectar tanto "polinômio" quanto "polinómio" (não precisaria de redirects);
  • É possível mudar de uma variante para a outra, mesmo não estando logado:
    • Percebam o menu ao lado da aba discussão na página principal da Wikipédia chinesa;
    • Observem a mudança no conteúdo (não apenas na interface) da página ao mudar de zh-hk (chinês tradicional/Hong Kong e Macau) para zh-hans (chinês simplificado) (use duas abas no navegador para facilitar a comparação, a não ser que fale chinês :-)). Até mesmo o logótipo muda!
  • Para os que logarem, na página de preferências (ver zh:Special:Preferences) há uma caixa de seleção para a escolha da variante, logo abaixo daquela usada para escolher o idioma, bem como para desabilitar conversão de títulos de artigos ou de variantes de idioma.

A sintaxe usada nas tabelas de conversão personalizáveis[editar código-fonte]

No momento estão sendo esboçadas as seguintes tabelas: MediaWiki:Conversiontable/pt-pt (Portugal) e MediaWiki:Conversiontable/pt-br (Brasil). Se puder, ajude a revisar e ampliar estas tabelas, e a criar as que estão faltando.

Ao editarem uma Tabela de Conversão Global do MediaWiki'' notem o seguinte:

  • A tabela de conversão usa a marcação -{ }- e tudo que estiver fora destas marcas será ignorado;
  • Cada regra de conversão deve ser indicada no seguinte formato:
    * abc => xyz //Observações ;
    onde:
    • O "*" pode ser omitido, mas sua presença melhora a formatação da página;
    • "abc => xyz" é a essência da regra de conversão;
    • "//Observações" são opcionais e servem para explicar melhor determinada regra;
    • Cada regra deve ser terminada com um ";" no fim da linha. Se houver alguma observação, a mesma deve colocar-se antes do ";".
    • Eventuais espaços inseridos em torno de abc e xyz são ignorados.
  • As expressões maiores têm precedência sobre as menores. Por exemplo, suponha que fossem inseridas estas as regras:
    * abc => xyz ;
    * abcdef => abcdef ;
    * abcdefghi => pqrstu ;
    O resultado seria que "abc" seria convertido para "xyz" mas "abcdef" não seria convertido para "xyzdef" (pois a regra de maior precedência diz que a string "abcdef" deve ser convertido para si mesma). Por outro lado, como a regra "abcdefghi => pqrstu" tem precedência ainda maior, "abcdefghi" seria convertido para "pqrstu". Isso é particularmente útil quando uma palavra está contida em outra e a conversão da menor delas não deve afetar a maior. Por exemplo, "ação" está contida em "coração", então para converter "ação => acção" sem converter "coração => coracção", pode-se adicionar a regra "coração => coração" (que terá precedência sobre "ação => acção").
  • É feita distinção entre maiúsculas e minúsculas.

Observação: Não é preciso repetir aqui as regras que forem adicionadas à tabela MediaWiki:Conversiontable/pt-pt.

A sintaxe usada nos artigos (quando necessário)[editar código-fonte]

Algumas vezes não é viável criar regras de conversão que possam ser aplicadas globalmente a todas as páginas. Nestas situações o indicado é utilizar a sintaxe a seguir para marcar manualmente os trechos das paginas que devem ser convertidos entre uma variante e outra. Acompanhe os seguintes exemplos:

Explicação Código
Sintaxe típica para a conversão manual de palavras ou trechos de uma página:

-{pt-pt:autocarro; pt-br:ônibus; pt-mz:machimbombo; pt-ao:maximbombo; pt-gw:toca-toca}-

Convertendo todas (All) as ocorrências em um mesmo Artigo:

-{A| pt-pt:autocarro; pt-br:ônibus; pt-mz:machimbombo; pt-ao:maximbombo; pt-gw:toca-toca}-

Convertendo Títulos de artigos:

-{T| pt-pt:autocarro; pt-br:ônibus; pt-mz:machimbombo; pt-ao:maximbombo; pt-gw:toca-toca}-

Forçando a exibição de um mesmo Título para todas as variantes:

-{T|Transporte de passageiros}-

Evitando a conversão do título:

__NOTC__ ou __NOTITLECONVERT__

Evitando a conversão do conteúdo do artigo:

__NOCC__ ou __NOCONTENTCONVERT__

Evitando a conversão de um trecho do artigo (para impedir a aplicação de uma regra global definida um uma das tabelas):

-{texto que não deve ser convertido}-

Veja um exemplo prático na página de testes da Wikipédia chinesa (com uma frase em português): pt-br e pt-pt.

Prós e Contras[editar código-fonte]

Resumo dos pontos positivos[editar código-fonte]

  • Há casos onde é desejável dar destaque ao fato de que a grafia muda entre um país e outro (por exemplo no início de um artigo, onde as diversas grafias aparecem em negrito). Isto continuará sendo possível, usando a sintaxe -{}- nos trechos onde a indicação é necessária. Nos demais trechos, escreve-se em qualquer uma das formas, sem usar qualquer sintaxe especial, e a exibição será feita de acordo com as preferências do usuário. Assim, todos continuam tendo a oportunidade de conhecer outras formas de escrever determinada expressão, e passam a poder ler o restante do artigo em sua variante preferida (e portanto não ficará tentado a "corrigir" algo que está corre(c)to).
  • Deixa de ser necessário usar parênteses no meio de palavras (como ocorre algumas vezes com "proje(c)to") para indicar a presença de uma variação;
  • Garante a todos os artigos uma das características de um "verbete perfeito": seguir uma das convenções de escrita padrão do português;
    • Uma consequência direta é que seria atendida a expectativa que a mídia parece ter[6] quanto a nacionalidade da Wikipédia lusófona: ela não é de nenhum país em particular, mas poderá ser lida exclusivamente na variante de cada um!
  • Permitirá a simplificação de algumas políticas internas, do tipo indicado na página Wikipedia:Versões da língua portuguesa, pois:
    • Uma vez que a conversão é feita automaticamente para a versão escolhida pelo leitor, todos os artigos passam a ter uma linguagem consistente ao longo do texto, não importando qual foi a variante usada em cada trecho da página (pelos editores);
    • Se um editor se sente mais confortável com uma das variantes e pretende aprimorar um trecho de um artigo que usa a outra variante, ele não precisaria ser obrigado a continuar escrevendo naquela variante com a qual não está acostumado. Isto seria uma dificuldade a menos para quem edita os artigos. De fato, se o editor fizesse a troca de uma variante para outra ao aprimorar um parágrafo do texto onde existissem palavras que já tivessem sido inseridas nas tabelas de conversão, o Conversor de Idiomas garantiria que o resultado final do artigo para os leitores que têm uma preferência por "pt" ou por "pt-br" continuaria sendo uniforme, e refletiria a sua escolha (não a escolha do editor).
    • Os leitores que chegarem a abrir a janela de edição de um artigo poderão perceber que a sintaxe -{pt-pt:directamente; pt-br:diretamente}- já indica as formas de se escrever determinada expressão conforme a variante de nossa língua, então não terão motivação para fazer uma troca entre as variantes
    • Citação: «Por isso, não veja algo que não está escrito no seu português como incorreto.» deixa de fazer sentido, pois cada um (anônimo ou não) poderá ler a Wikipédia conforme a variante de sua preferência;
    • Se o resultado final exibido para os leitores vai ser naquela variante que ele escolher, eu não veria o ato de um futuro editor "mudar da variante "A" para a "B"" em um parágrafo que eu escrevi como sendo "uma falta de respeito" para com a minha pessoa, pois se ele se sente melhor escrevendo daquela maneira, o importante é que também possa participar deste processo colaborativo.
    • Como os leitores poderão ler um texto que usa uniformemente uma determinada variante (resultante da conversão automática), deixará de fazer sentido o seguinte: Citação: «A mistura de normas num mesmo artigo, no entanto, pode ter resultados um pouco estranhos. Assim, se um utilizador fizer mudanças significativas num determinado artigo escrito na outra norma, é compreensível que edite a parte não alterada para se adequar à parte nova. O que significa realmente "mudanças significativas" cabe a cada um decidir, mas 50% é um valor razoável.»
    • Deixa de ser necessário que se crie "outra página com o título alternativo redirecionada para a primeira" no caso de títulos que sofrem variações, pois o sistema procura tanto projecto quanto projeto (supondo que estejam nas tabelas de conversão) ao se deparar com um link em qualquer das variantes;
    • Continua sendo possível mencionar "ambas as possibilidades (...) a negrito na primeira frase" do artigo (mesmo porque a existência de uma variação no nome é uma informação importante que deve ser dada aos leitores), bastando colocar o -{trecho dentro da marcação adequada}-. O código pode, por exemplo, ser inserido à predefinições como a {{PEPB}}, que já é utilizada em alguns artigos.
  • As páginas do espaço nominal "File" exibiriam "Arquivo" (em vez de "Ficheiro") para quem escolhesse a variante pt-br, coisa que não é possível atualmente devido a uma limitação do MediaWiki que o faz exibir a tradução no idioma do site (que é pt).
  • Ajude-nos a ampliar esta lista!

Resumo dos pontos negativos[editar código-fonte]

  • Como lidar com o AO de 1990?: a princípio, a conversão para nenhuma das variantes do português usaria as duas versões simultaneamente (uma conforme o AO de 1990 e outra não). Isto significa que as regras globais de cada subpágina do espaço nominal MediaWiki não devem resultar em uma mistura de expressões com e sem o AO de 1990.
    • Levando em conta que as tabelas de conversão para cada variante são independentes umas das outras e que, portanto, cada uma só afeta aqueles leitores que escolherem tal variante, uma forna natural de lidar com a transição para o AO parece ser que cada tabela reflita a norma ortográfica em vigor em cada país:
      1. Para os que (ainda) não adotam o AO: as regras resultem em expressões de antes do AO até que este seja adotado;
      2. Para os que adotarem o AO: o resultado das regras esteja conforme indicado pelo AO.
      Assim, as regras de conversão para pt-br (que está sendo esboçada aqui) podem estar conforme o AO desde já (se isso for desejado), ao mesmo tempo em que as regras de conversão para pt-pt (que está sendo esboçada aqui) podem refletir a ortografia anterior ao AO de 1990. Quando outros países decidirem adotar o AO (se o fizerem), basta atualizar suas tabelas, para que reflitam a nova escrita. Por hora, os esboços das tabelas de conversão podem usar seções separadas conforme as regras reflitam ou não o acordo ortográfico.
  • Ajude-nos a ampliar esta lista!

Tarefas pendentes[editar código-fonte]

  • Completar e conferir coletivamente a tabela de variantes reservas (variant falbacks - ver exemplo no código fonte do conversor para chinês) para as variantes do português que poderia ser permitidas no Conversor de Idiomas. As variantes reservas para determinada variante "pt-xx" seriam aquelas variantes "pt-v1", "pt-v2", etc, que deveriam ser usadas quando não for especificada uma regra de conversão específica para determinada variante "pt-xx". Isto é útil também (CONFIRMAR!) para que não seja necessário duplicar regras entre as tabelas de conversão.
Variante
(Códigos ISO 3166-1 para os países) [7][8]
Variantes reservas
pt (quaisquer variantes) pt-PT pt-BR pt-AO pt-CV pt-GQ pt-GW pt-MO pt-MZ pt-ST pt-TL
pt-PT (Portugal) pt-BR
pt-BR (Brasil) pt-PT
pt-AO (Angola) pt-BR pt-PT
pt-CV (Cabo Verde) pt-PT pt-BR
pt-GQ (Guiné Equatorial) pt-PT pt-BR
pt-GW (Guiné-Bissau) pt-PT pt-BR
pt-MO (Macau) pt-PT pt-BR
pt-MZ (Moçambique) pt-PT pt-BR
pt-ST (São Tomé e Príncipe) pt-PT pt-BR
pt-TL (Timor-Leste) pt-PT pt-BR

Confirmar[editar código-fonte]

  • É desejável que haja uma regras para trocar o ü (u com trema) pelo u (sem trema) nas tabelas de conversão? Ou o número de palavras que deveriam permanecer com trema seria grande demais para termos que corrigi-las com -{}-? (Note: continuaria possível incluir trema nos artigos onde for preciso, bastando usar a sintaxe -{palavra com trema}- adequada;
  • O sistema traz alguma melhoria para a categorização? Quais?
  • Ao editar uma página na Wikipédia chinesa, qual variante aparece? Uma só? Uma mistura? Há políticas/recomendações sobre isso na Wikipédia chinesa? O mesmo aconteceria na lusófona?
  • É possível indicar com alguma marcação que em determinados artigos a variante a ser exibida por padrão deve ser esta ou aquela? [para aqueles que não fizeram uma escolha entre variantes - isso existe? Se sim, por acaso seria a sigla pt (em um contexto onde existam pt, pt-br, pt-pt, ...)?]
  • Que diferença faz o manualLevel (que pode ser disable, unidirectional ou bidirectional)?
  • Faz diferença a ordem em que as regras aparecem nas tabelas de conversão? Por exemplo "acto => ato" e "actor => ator" devem ser colocadas em que ordem já que "acto" faz parte de "actor"? Ambas precisam ser colocadas?;
  • Existe diferença na conversão de palavras iniciadas com Maiúscula? (Ex:A tabela precisa ter os pares Ação =>Acção e ação =>acção)

Notas[editar código-fonte]

  1. Caso se mostrasse interessante, tais links poderiam ter uma pequena bandeira do país correspondente, inserida para todos via MediaWiki:Common.js (mas isso é apenas um detalhe, sobre o qual podemos pensar depois...).
  2. Coloca-se "&" em vez de "?" se já houver outros parâmetros no endereço. Por exemplo, "?title=..." aparece frequentemente em links do tipo http://pt.wikipedia.org/w/index.php?title=Título, mas não é comum quando o endereço tem a forma http://pt.wikipedia.org/wiki/Título.
  3. Ver esta discussão na wikitech
  4. http://thread.gmane.org/gmane.science.linguistics.wikipedia.technical/45421
  5. http://thread.gmane.org/gmane.science.linguistics.wikipedia.technical/45421/focus=45426
  6. Conforme Wikipedia_Discussão:Versões_da_língua_portuguesa/Tentativa_de_consenso, {{subst:citação|Manuel de Sousa|uma das questões em que os jornalistas mais insistem é precisamente na portugalidade da Wikipédia}}
  7. Código dos idiomas ISO 639
  8. Código dos países ISO 3166

Links[editar código-fonte]

  • bugzilla:26121: Pedido habilitar o conversor em alguma wiki de testes onde a comunidade lusófona possa experimentá-lo na prática

PHP[editar código-fonte]

Leitura complementar[editar código-fonte]