Ponto de código

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa

Na terminologia de codificação de caracteres, um ponto de código ou posição de código é qualquer dos valores numéricos que compõem o espaço de código (uma série de valores numéricos disponíveis para codificação de caracteres).[1] Por exemplo, o ASCII dispõe de 128 pontos de código no intervalo de 0hex a 7Fhex, o ASCII estendido dispõe de 256 pontos de código no intervalo de 0hex a FFhex e o Unicode compreende 1.114.112 pontos de código na faixa de 0hex a 10FFFFhex. O espaço de código do Unicode é dividido em dezessete planos (o plano multilíngue básico e 16 planos suplementares), cada um com 65.536 (= 216) pontos de código. Assim, o tamanho total do espaço de código do Unicode é de 17 x 65.536 = 1.114.112.

Definição[editar | editar código-fonte]

A noção de um ponto de código é utilizada para a abstração, para distinguir:

  • o número de uma codificação como uma sequência de bits, e
  • o caractere abstrato a partir de uma representação gráfica particular (glifo).

Isso é porque pode-se desejar fazer essas distinções:

  • codificar um espaço de código particular de diferentes maneiras, ou
  • exibir um caractere através de diferentes glifos.

Para o Unicode, a seqüência de bits particular é chamada de unidade de código - para a codificação UCS-4, qualquer ponto de código é codificado como números binários 4-byte (octeto), enquanto na codificação UTF-8, pontos de código diferentes são codificados como sequências de um a quatro bytes de comprimento, que formam um código de auto-sincronização. Veja a comparação de codificações Unicode para mais detalhes. Pontos de código são normalmente atribuídos a caracteres abstratos. Um caractere abstrato não é um glifo gráfico, mas uma unidade de dados textuais. No entanto, pontos de código também podem ser deixados reservados para atribuição futura (a maior parte do espaço de código do Unicode é não-atribuída), ou dado outras funções designadas.

A distinção entre um ponto de código e o caractere abstrato correspondente não é pronunciado em Unicode, mas é evidente para muitos outros esquemas de codificação, onde podem existir várias páginas de código para um espaço único código.

Referências