Caracteres CJK

CJK é um termo coletivo de chinês, japonês, e coreano (a ser esse último escrito com "k" nas demais línguas), que constituem as línguas principais da Ásia Oriental. O termo é usado no campo de internacionalização de comunicações e software.

O termo CJKV significa CJK mais o vietnamita, que no passado usou caracteres chineses Hán tự e Chữ Nôm antes da adoção do Quốc Ngữ.

Essas línguas todas têm uma característica compartilhada: os seus sistemas de escrita todos completamente ou em parte usam caracteres chineses; hànzì em chinês, kanji em japonês, e hanja em coreano. O chinês é escrito em caracteres chineses somente e necessita ca. e 4000 caracteres para alfabetização geral embora lá estejam à altura de 40 000 caracteres da cobertura razoavelmente completa. O japonês usa menos caracteres e a alfabetização geral no Japão pode ser esperada com aproximadamente 2000 caracteres em conjunto com dois silabários, o hiragana e o katakana. O uso de caracteres chineses na Coréia está ficando cada vez mais raro, embora o uso idiossincrásico de caracteres chineses em nomes próprios necessite o conhecimento (e por isso a disponibilidade) de muito mais caracteres. O número de caracteres necessitados para a cobertura completa da necessidades de todas essas línguas não pode ajustar-se no espaço de código de 256 caracteres da codificação de caracteres de 8 bits, necessitando pelo menos que 16 bits a codificação de largura ou o comprimento variável de encodamento multi-byte. O 16 bits fixados alargo os encodamentos, como Unicode até e incluindo a versão 2.0, são deprecados agora devido à exigência de codificar mais caracteres do que uma codificação de 16 bits pode acomodar. O Unicode 5.0 tem aproximadamente 90 000 caracteres Han e a exigência pelo governo chinês que o software na China suporte o conjunto de caracteres GB18030.

Embora os encodamentos CJK tenham conjuntos de caracteres comuns, os encodamentos muitas vezes usados para representá-los foram desenvolvidos separadamente por diferentes governos da Ásia Oriental e companhias de software, sendo mutuamente incompatíveis. O Unicode tentou, com um pouco de controvérsia, unificar os conjuntos de caracteres em um processo conhecido como unificação Han.

Os encodamentos de caracteres CJK devem compor-se minimamente de caracteres Han mais escritas fonéticas específicas de língua como pinyin, bopomofo, hiragana, katakana, e hangul.

O encodamento de caractere CJK inclui:

Big5
EUC-JP
EUC-KR
GB18030 (o padrão obrigatório na República Popular da China)
GB2312
ISO 2022-JP
KS C 5861
Shift-JIS
Unicode

Os conjuntos de caracteres CJK ocupam a maior parte do espaço do código Unicode. Há muita controvérsia entre peritos japoneses de caracteres chineses sobre o desejo e mérito técnico do processo de unificação Han usado para fazer o mapa de múltiplos conjuntos de caracteres chineses e japoneses em um conjunto único de caracteres unificados.

O chinês e o japonês podem ser escritos tanto da esquerda para a direita como de cima para baixo, mas são normalmente considerados como escritos da esquerda para a direita quando se discutem questões de encodamento.

Ver também[editar | editar código-fonte]

Referências[editar | editar código-fonte]

Este artigo foi originalmente baseado no material do Dicionário Online Gratuito da Computação, que é licenciado sob GFDL.

DeFrancis, John. The Chinese Language: Fact and Fantasy. Honolulu: University of Hawaii Press, 1990. ISBN 0-8248-1068-6.
Hannas, William C. Asia's Orthographic Dilemma. Honolulu: University of Hawaii Press, 1997. ISBN 0-8248-1892-X (paperback); ISBN 0-8248-1842-3 (hardcover).
Lemberg, Werner: The CJK package for LATEX2ε—Multilingual support beyond babel. TUGboat, Volume 18 (1997), No. 3—Proceedings of the 1997 Annual Meeting
Lunde, Ken. CJKV Information Processing. Sebastopol, Calif.: O'Reilly & Associates, 1998. ISBN 1-56592-224-7.

Ligações externas[editar | editar código-fonte]

«CJKV: Uma breve introdução» (em inglês)
«Lemberg CJK artigo de cima, TUGboat18-3» (PDF) (em inglês)