Saltar para o conteúdo

Diferenças entre edições de "UTF-16"

49 bytes adicionados ,  11h39min de 18 de janeiro de 2005
Mais tradução
(Comecei a traduzir do inglês)
(Mais tradução)
 
Para os caracteres que tenham recebido um identificador entre 0 e 65535 nas listas Unicode ou ISO/IEC 10646, a codificação UTF-16 representa-os simplesmente como um número idêntico ao
seu código. Por exemplo, o código UTF-16 do caractere identificado por 0 é 0. O código UTF-16 do caractere identificado pelo [[número hexadecimal]] FFFD é FFFD.
 
No caso dos valores maiores que 65535 ([[número hexadecimal]] FFFF), o UTF-16 representa-os
código UTF-16 de um dado "caractere alto" é o seguinte:
 
hipótese: ultimo caractere UnicodeISO/IEC 10646 Z = 10FFFD
seja U: caractere ISO/IEC 10646 que queremos passar para UTF-16 (U tem 21 bits)
 
seus bits colocados em alguma ordem bem definida. Devido às diferenças de arquitetura de computadores, especificam-se três formas de serialização: UTF-16, UTF-16LE e UTF-16BE.
 
O esquema UTF-16 de serialização requer que a ordem de bytes seja declarada com um comando [[Byte Order Mark]] antes do primeiro caractere serializado. O comando '''BOM''' é representado pela codificação UTF-16 do caractere '''"Zero-Width No-Break Space"''', que tem
O esquema UTF-16 de serialização
o código FEFF, no começo da mensagem. Numa máquina [[little-endian]], este código é serializado como FF FE (isto é o primeiro byte a ser armazenado ou transmitido é o FF, após este, FE), enquanto numa
máquina [[big-endian]], como FE FF. Um BOM no início de um texto UTF-16, encontrado por um desserializador UTF-16 é tratado como um comando e não é incluído como parte da mensagem.
 
Os esquemas '''UTF-16LE''' e '''UTF-16BE''', em vez de utilizarem um comando, simplesmente assumem implicitamente uma das formas de operação. Este serializa em big-endian e aquele, em little-endian. Um código BOM no começo da mensagem faz, portanto, parte da própria mensagem.
The UTF-16 encoding scheme mandates that the byte order must be declared by prepending a [[Byte Order Mark]] before the first serialized character. This '''BOM''' is the encoded version of the Zero-Width No-Break Space character, Unicode number FEFF in hex, manifesting as the byte sequence FE FF for big-endian, or FF FE for little-endian. A BOM at the beginning of UTF-16 encoded data is considered to be a signature separate from the text itself; it is for the benefit of the decoder.
 
The '''UTF-16LE''' and '''UTF-16BE''' encoding schemes are identical to the UTF-16 encoding scheme, but rather than using a BOM, the byte order is implicit in the name of the encoding (LE for little-endian, BE for big-endian). A BOM at the beginning of UTF-16LE or UTF-16BE encoded data is not considered to be a BOM; it is part of the text itself.
 
The [[Internet Assigned Numbers Authority|IANA]] has approved UTF-16, UTF-16BE, and UTF-16LE for use on the [[Internet]], by those exact names (case insensitively). The aliases '''UTF_16''' or '''UTF16''' may be meaningful in some programming languages or software applications, but they are not standard names.
 
Today UTF-16 is the native internal representation of text in [[Microsoft Windows]] and in the [[Java programming language]].
 
 
 
UTF-16 é um formato de [[codificação]] de caracteres em [[computador]]es.
 
A [[Internet Assigned Numbers Authority|IANA]] aprovou as codificações UTF-16, UTF-16BE e UTF-16LE para uso na [[Internet]], com exatamente estes nomes (sem diferenciar maiúsculas
ou minúsculas). As variações '''UTF_16''' ou '''UTF16''' podem significar o mesmo em certas linguagens de programação ou certos programas, mas não são considerados padrões.
 
Hoje em dia, UTF-16 é a representação nativa de texto no [[Microsoft Windows]] e na [[Linguagem de programação Java]].
 
 
93

edições