Língua japonesa e computadores

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa
Merge-arrows 2.svg
Foi proposta a fusão deste artigo ou se(c)ção com Língua japonesa. Por favor crie o espaço de discussão sobre essa fusão e justifique o motivo aqui; não é necessário criar o espaço em ambas as páginas, crie-o somente uma vez. Perceba que para casos antigos é provável que já haja uma discussão acontecendo na página de discussão de um dos artigos. Verifique ambas (1, 2) e não se esqueça de levar toda a discussão quando levar o caso para a central.
Editor, considere adicionar mês e ano na marcação. Isso pode ser feito automaticamente, com {{Fusão|1= Língua japonesa|{{subst:DATA}}}}.

O contato entre a língua japonesa e computadores foi imediato, porém mínimo, restrito, superficial e incomparavelmente menor que o contato entre a minimalista língua inglesa e os computadores IBM de escritório, que foram preparados para reconhecer e processar os caracteres do alfabeto inglês em sua integridade. Várias adaptações surgiram para preencher a lacuna entre os "alfabetos", algumas comuns a variações do alfabeto romano, outras próprias de línguas que fazem uso de grande quantidade de caracteres, umas poucas exclusivas do Japonês.

Layout de um teclado padrão japonês com hiraganas.
Mesas digitalizadoras são muito usadas no Japão para inserção de kanjis à mão com caneta stylus em handwriting.

O Inglês precisa apenas de sete dos oito bits da palavra de um byte para indexar os caracteres de seu alfabeto, enquanto que o Japonês necessita da codificação de byte duplo ou multi-byte para indexar sete mil, doze mil ou mais caracteres para sua escrita ideográfica. Numa primeira abertura, o ASCII (American Standard Code for Information Interchange) de sete bits foi estendido em um bit para ser adaptado a escritas de origem latina, mas línguas com escritas diferentes também puderam usar o ASCII estendido. O Japonês só foi incorporado numa etapa em que o processamento de textos está sendo expandido para processar textos multilingue, ou seja, quando o processamento de textos passou a manusear palavras de 16 bits, ou duplo byte, ou ainda word.

A dificuldade mais aparente é a necessidade de transposição entre a escrita alfabética e a escrita ideográfica; problema menor é a que se relaciona à transliteração (ou romanização) que vem se desenvolvendo há vários séculos; há ainda o problema apresentado para indexação da grande quantidade de ideogramas, e problemas de inserção de textos ideográficos. E um problema ainda não muito bem resolvido: o da orientação dos textos, que no Japão é predominantemente na vertical.

A escrita ideográfica japonesa, tendo como mãe a escrita chinesa, está longe de ver finalizada sua indexação, entretanto a indexação dos ideogramas já alcançou um estágio em que a familiaridade que o japonês tem com eles é equiparável ao que o japonês tem, por exemplo, com alfabeto cirílico, que o JIS incorporou numa de suas padronizações.

Indexação de caracteres[editar | editar código-fonte]

O padrão ASCII de sete bits abrangendo as vinte e seis letras do alfabeto inglês tinha uma correspondência biunívoca com o romaji da escrita japonesa.

Em 1981 a IBM estendeu o código ASCII para oito bits, abrindo caminho para a codificação plena da escrita de línguas latinas, nórdicas, eslávicas e do oriente médio, e a língua japonesa foi contemplada com a inclusão de algumas dezenas de caracteres katakana. O JIS (Japanese Industrial Standards) para o código de oito bits é o JIS C 6220 de 1969 (mais tarde JIS X 0201). Com esse código carregado na memória, os computadores possibilitavam a escrita de e-mails diretamente pelo teclado, embora precariamente.

Um conjunto de cerca de dois mil caracteres é recomendado para o ensino médio no Japão e para a tipografia oficial. Para efeitos práticos, um conjunto parcial de sete mil caracteres é considerado bastante satisfatório para a língua escrita japonesa, e é um conjunto como este último que está contido em cada uma das padronizações mais conhecidas como o JIS C 6226 (mais tarde JIS X 0208), o Shift JIS da empresa norte americana Microsoft e o EUC (Extended UNIX code) que nomeou como EUC-JP.

O EUC-JP forneceu a base para o desenvolvimento do JWP de Stephen Chung (um processador de textos japonês para ocidentais). O JWP trazia embutido suas próprias fontes bitmapeadas para visualização na tela e outras fontes para impressão. Já a codificação Shift_JIS tem sido mais empregada na segunda metade da década de 1990, para visualização de páginas web em plataforma Windows, ao lado do EUC-JP que também tem sido empregada com esse fim, mas em plataforma UNIX.

Em 1993 surgiu a primeira versão do Unicode como resultado de um consórcio sem interesses financeiros, independente de plataforma operacional, programas, línguas ou países. A versão 1 (um) inclui o Japonês ao lado de outras línguas ocidentais, asiáticas e do oriente médio. O Unicode possibilita o processamento de textos multilingue mas, por ora, tem sido muito empregado em versões simplificadas de acordo com a conveniência e finalidade do programa que o requisita. Uma variação do Unicode, o UTF-8, é empregada na Wikipédia, mas variações simplificadas do Unicode são usadas mais comumente.

Inserção de textos em japonês[editar | editar código-fonte]

A entrada de textos em romaji é direta, de vez que o romaji corresponde 100% ao alfabeto inglês. A entrada de kanas (hiraganas e katakanas) é feita pelo teclado padrão JIS X 6002 que permite a digitação de hiraganas e katakanas alternativamente ao romaji. O teclado japonês segue o padrão QWERTY das máquinas de escrever tipo Remington.

Outra forma de introdução de hiraganas e katakanas é através de um teclado ASCII americano (e, por extensão, qualquer teclado latino) assistido por um sistema de transliteração (como o sistema Hepburn) que transforma os toques de teclado em caracteres do silabário japonês.

A escrita ideográfica japonesa usa milhares de caracteres. A introdução de kanjis é feita por pelo digitador que transpõe o hiragana para o kanji apropriado selecionando o caracter correto em meio a outras (seis em média).

Um front end conhecido como IME (Input Method Editor) foi embutido no sistema operacional Windows XP em 2003. Este IME permite também a inserção através de escrita à mão (handwriting) numa mesa digitalizadora ou tela sensível ao toque. Também possibilita a entrada através da vocalização do texto em dictation.

No Japão, a mesa digitalizadora é usada largamente utilizada pois oferece uma metodologia para interação com o computador de modo mais natural e direto do que através de um teclado. A escrita à mão diretamente sobre uma tela gráfica já é possível.

Transliteração[editar | editar código-fonte]

Há dois sistemas de romanização de japonês conhecidos como Kunrei-shiki e Nihon-shiki além do sistema Hepburn.

O sistema Hepburn (também conhecido como Hebon-shiki), foi criado no século XIX pelo reverendo James Curtis Hepburn para o seu dicionário Japonês-Inglês e é um sistema incorporado por processadores de texto ocidentais, a exemplo do JWP, para escrever japonês usando alfabeto romano. A pronúncia seguida pelo sistema Hepburn é uma mescla de consoantes pronunciados à inglesa e de vogais pronunciados à latina.

Já o sistema Kunrei-shiki é uma adequação do sistema Nihon-shiki à pronúncia japonesa moderna, mas, apesar de ser uma sistematização do xéculo XIX, o Nihon-shiki se presta melhor à digitação de caracteres japoneses pelo fato de haver correspondência um-para-um entre os caracteres romanos e os kanas do silabário japonês, o que permite a transcrição biunívoca entre os kanas e o romaji.

O sistema Hepburn está presente nos processadores de texto japoneses que romanizam o japonês em que as sílabas じ e ぢ do silabário japonês são convertidas para ji. Já as sílabas づ e ず são convertidas para zu, o que prejudica a reciprocidade entre a digitação em romaji e a transliteração para o japonês.

Tanto o sistema Hepburn como o Kunrei-shiki costumam ser usados por digitadores, mas em algum momento é necessário empregar uma combinação de letras em função da escrita silábica japonesa pelo fato destes dois sistemas se basearem na pronúncia da sílabas e não nos seus símbolos.

Fontes de tipos[editar | editar código-fonte]

Ao contrário da escrita alfabética, a escrita ideográfica oferece poucas opções de tipos. Enquanto um processador de textos em alfabeto romano pode oferecer milhares de tipos para o usuário, o conjunto de caracteres ideográficos é demasiado denso para ter a mesma oferta de tipos. Isto é tanto mais verdadeiro quanto mais a padronização JIS avança na codificação integrando mais e mais caracteres.

O JWP utiliza imagens de fontes por ser mais antiga; o JWPce (mais recente) usa fontes true type escaláveis. Na versão de fontes true type costuma-se ter à disposição fontes do tipo "com serifas" e "sem serifas".

A pouca diversidade de fontes é aceitável na produção de pequenas tiragens (hardcopy) em impressora própria ou na apresentação de páginas web, mas é um tanto frustrante para um designer.

Direção do texto[editar | editar código-fonte]

O japonês tem dois sentidos de escrita, chamados yokogaki e tategaki. O estilo yokogaki é o mesmo que o do português, mas o estilo tategaki envolve colunas de texto escritas verticalmente, enfileiradas da direita para a esquerda.

Atualmente, o manuseio de textos em escrita vertical é incompleto. Por exemplo, HTML não tem suporte para tategaki e o designer japonês usa tabelas HTML para simulá-lo. Entretanto, CSS nível 3 inclui uma propriedade writing-mode que pode renderizar tategaki quando se dá um valor "tb-rl" (i.e. de cima para baixo, direita para esquerda). Processadores de texto e softwares DTP (desktop publisher) têm suporte mais completo para isso.

Ver também[editar | editar código-fonte]

Ligações externas[editar | editar código-fonte]