Língua japonesa e computadores
O contato entre a língua japonesa e computadores foi imediato, porém mínimo, restrito, superficial e incomparavelmente menor que o contato entre a minimalista língua inglesa e os computadores IBM de escritório, que foram preparados para reconhecer e processar os caracteres do alfabeto inglês em sua integridade. Várias adaptações surgiram para preencher a lacuna entre os "alfabetos", algumas comuns a variações do alfabeto romano, outras próprias de línguas que fazem uso de grande quantidade de caracteres, umas poucas exclusivas do Japonês.
O Inglês precisa apenas de sete dos oito bits da palavra de um byte para indexar os caracteres de seu alfabeto, enquanto que o Japonês necessita da codificação de byte duplo ou multi-byte para indexar sete mil, doze mil ou mais caracteres para sua escrita ideográfica. Numa primeira abertura, o ASCII (American Standard Code for Information Interchange) de sete bits foi estendido em um bit para ser adaptado a escritas de origem latina, mas línguas com escritas diferentes também puderam usar o ASCII estendido. O Japonês só foi incorporado numa etapa em que o processamento de textos está sendo expandido para processar textos multilingue, ou seja, quando o processamento de textos passou a manusear palavras de 16 bits, ou duplo byte, ou ainda word.
A dificuldade mais aparente é a necessidade de transposição entre a escrita alfabética e a escrita ideográfica; problema menor é a que se relaciona à transliteração (ou romanização) que vem se desenvolvendo há vários séculos; há ainda o problema apresentado para indexação da grande quantidade de ideogramas, e problemas de inserção de textos ideográficos. E um problema ainda não muito bem resolvido: o da orientação dos textos, que no Japão é predominantemente na vertical.
A escrita ideográfica japonesa, tendo como mãe a escrita chinesa, está longe de ver finalizada sua indexação, entretanto a indexação dos ideogramas já alcançou um estágio em que a familiaridade que o japonês tem com eles é equiparável ao que o japonês tem, por exemplo, com alfabeto cirílico, que o JIS incorporou numa de suas padronizações.
Índice |
[editar] Indexação de caracteres
O padrão ASCII de sete bits abrangendo as vinte e seis letras do alfabeto inglês tinha uma correspondência biunívoca com o romaji da escrita japonesa.
Em 1981 a IBM estendeu o código ASCII para oito bits, abrindo caminho para a codificação plena da escrita de línguas latinas, nórdicas, eslávicas e do oriente médio, e a língua japonesa foi contemplada com a inclusão de algumas dezenas de caracteres katakana. O JIS (Japanese Industrial Standards) para o código de oito bits é o JIS C 6220 de 1969 (mais tarde JIS X 0201). Com esse código carregado na memória, os computadores possibilitavam a escrita de e-mails diretamente pelo teclado, embora precariamente.
Um conjunto de cerca de dois mil caracteres é recomendado para o ensino médio no Japão e para a tipografia oficial. Para efeitos práticos, um conjunto parcial de sete mil caracteres é considerado bastante satisfatório para a língua escrita japonesa, e é um conjunto como este último que está contido em cada uma das padronizações mais conhecidas como o JIS C 6226 (mais tarde JIS X 0208), o Shift JIS da empresa norte americana Microsoft e o EUC (Extended UNIX code) que nomeou como EUC-JP.
O EUC-JP forneceu a base para o desenvolvimento do JWP de Stephen Chung (um processador de textos japonês para ocidentais). O JWP trazia embutido suas próprias fontes bitmapeadas para visualização na tela e outras fontes para impressão. Já a codificação Shift_JIS tem sido mais empregada na segunda metade da década de 1990, para visualização de páginas web em plataforma Windows, ao lado do EUC-JP que também tem sido empregada com esse fim, mas em plataforma UNIX.
Em 1993 surgiu a primeira versão do Unicode como resultado de um consórcio sem interesses financeiros, independente de plataforma operacional, programas, línguas ou países. A versão 1 (um) inclui o Japonês ao lado de outras línguas ocidentais, asiáticas e do oriente médio. O Unicode possibilita o processamento de textos multilingue mas, por ora, tem sido muito empregado em versões simplificadas de acordo com a conveniência e finalidade do programa que o requisita. Uma variação do Unicode, o UTF-8, é empregada na Wikipédia, mas variações simplificadas do Unicode são usadas mais comumente.
[editar] Inserção de textos em japonês
A entrada de textos em romaji é direta, de vez que o romaji corresponde 100% ao alfabeto inglês. A entrada de kanas (hiraganas e katakanas) é feita pelo teclado padrão JIS X 6002 que permite a digitação de hiraganas e katakanas alternativamente ao romaji. O teclado japonês segue o padrão QWERTY das máquinas de escrever tipo Remington.
Outra forma de introdução de hiraganas e katakanas é através de um teclado ASCII americano (e, por extensão, qualquer teclado latino) assistido por um sistema de transliteração (como o sistema Hepburn) que transforma os toques de teclado em caracteres do silabário japonês.
A escrita ideográfica japonesa usa milhares de caracteres. A introdução de kanjis é feita por pelo digitador que transpõe o hiragana para o kanji apropriado selecionando o caracter correto em meio a outras (seis em média).
Um front end conhecido como IME (Input Method Editor) foi embutido no sistema operacional Windows XP em 2003. Este IME permite também a inserção através de escrita à mão (handwriting) numa mesa digitalizadora ou tela sensível ao toque. Também possibilita a entrada através da vocalização do texto em dictation.
No Japão, a mesa digitalizadora é usada largamente utilizada pois oferece uma metodologia para interação com o computador de modo mais natural e direto do que através de um teclado. A escrita à mão diretamente sobre uma tela gráfica já é possível.
[editar] Transliteração
Há dois sistemas de romanização de japonês conhecidos como Kunrei-shiki e Nihon-shiki além do sistema Hepburn.
O sistema Hepburn (também conhecido como Hebon-shiki), foi criado no século XIX pelo reverendo James Curtis Hepburn para o seu dicionário Japonês-Inglês e é um sistema incorporado por processadores de texto ocidentais, a exemplo do JWP, para escrever japonês usando alfabeto romano. A pronúncia seguida pelo sistema Hepburn é uma mescla de consoantes pronunciados à inglesa e de vogais pronunciados à latina.
Já o sistema Kunrei-shiki é uma adequação do sistema Nihon-shiki à pronúncia japonesa moderna, mas, apesar de ser uma sistematização do xéculo XIX, o Nihon-shiki se presta melhor à digitação de caracteres japoneses pelo fato de haver correspondência um-para-um entre os caracteres romanos e os kanas do silabário japonês, o que permite a transcrição biunívoca entre os kanas e o romaji.
O sistema Hepburn está presente nos processadores de texto japoneses que romanizam o japonês em que as sílabas じ e ぢ do silabário japonês são convertidas para ji. Já as sílabas づ e ず são convertidas para zu, o que prejudica a reciprocidade entre a digitação em romaji e a transliteração para o japonês.
Tanto o sistema Hepburn como o Kunrei-shiki costumam ser usados por digitadores, mas em algum momento é necessário empregar uma combinação de letras em função da escrita silábica japonesa pelo fato destes dois sistemas se basearem na pronúncia da sílabas e não nos seus símbolos.
[editar] Fontes de tipos
Ao contrário da escrita alfabética, a escrita ideográfica oferece poucas opções de tipos. Enquanto um processador de textos em alfabeto romano pode oferecer milhares de tipos para o usuário, o conjunto de caracteres ideográficos é demasiado denso para ter a mesma oferta de tipos. Isto é tanto mais verdadeiro quanto mais a padronização JIS avança na codificação integrando mais e mais caracteres.
O JWP utiliza imagens de fontes por ser mais antiga; o JWPce (mais recente) usa fontes true type escaláveis. Na versão de fontes true type costuma-se ter à disposição fontes do tipo "com serifas" e "sem serifas".
A pouca diversidade de fontes é aceitável na produção de pequenas tiragens (hardcopy) em impressora própria ou na apresentação de páginas web, mas é um tanto frustrante para um designer.
[editar] Direção do texto
O japonês tem dois sentidos de escrita, chamados yokogaki e tategaki. O estilo yokogaki é o mesmo que o do português, mas o estilo tategaki envolve colunas de texto escritas verticalmente, enfileiradas da direita para a esquerda.
Atualmente, o manuseio de textos em escrita vertical é incompleto. Por exemplo, HTML não tem suporte para tategaki e o designer japonês usa tabelas HTML para simulá-lo. Entretanto, CSS nível 3 inclui uma propriedade writing-mode que pode renderizar tategaki quando se dá um valor "tb-rl" (i.e. de cima para baixo, direita para esquerda). Processadores de texto e softwares DTP (desktop publisher) têm suporte mais completo para isso.