Frequência de letras

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa

A frequência de letras em um texto tem sido frequentemente estudada para uso em criptografia e análise de frequência em particular. Nenhuma distribuição de frequência de letras exata é subjacente a uma determinada língua, uma vez que todos os escritores escrevem um pouco diferente. As máquinas de linotipo classificaram as frequências das letras, como etaoin shrdlu cmfwyp vbgkqj xz com base na experiência e costume dos escritores manuais. Da mesma forma, o moderno código Morse Internacional codifica as letras mais frequentes com o menor número de símbolos, organizando o alfabeto Morse em grupos de letras que exigem quantidades iguais de tempo para transmitir, e, em seguida, classificando os grupos em ordem crescente, resultando em uma ordem e it san hurdm wgvlfbk opjxcz yq. Idéias semelhantes são utilizadas em modernas técnicas de compressão de dados, tais como a Codificação de Huffman.

Análises mais recentes mostram que as frequências de letras, da mesma forma que as frequências de palavras, tendem a variar, tanto pelo escritor quanto pelo assunto. Não se pode escrever um ensaio sobre raios-x sem uso frequente de letras Xs, e a redação terá uma frequência de letras especialmente estranha se o ensaio é sobre o uso frequente de raios-x para o tratamento de zebras no Qatar. Diferentes autores têm hábitos que podem ser refletidos no uso das letras. O estilo de escrita de Hemingway, por exemplo, é visivelmente diferente do estilo de Faulkner. Letras, bigramas, trigramas, as frequências de palavras, o comprimento das palavras, e o comprimento das sentenças podem ser calculados por autor específico, e usados para provar ou negar a autoria dos textos, mesmo para os autores cujos estilos não são tão divergentes.

Uma média precisa de frequências de letras só pode ser adquirida através da análise de uma grande quantidade de textos representativos. Com a disponibilidade da computação moderna e coleções de grandes corpora de texto, esses cálculos são feitos facilmente.

Herbert S. Zim, em seu clássico texto introdutório de criptografia "Codes and Secret Writing", dá a sequência da frequência de letras em Inglês como sendo "ETAON RISHD LFCMU GYPWB VKXJQ Z", os pares de letras mais comuns como sendo "TH HE AN RE ER IN ON AT ND ST ES EN OF TE ED OR TI HI AS TO", e as letras dobradas mais comouns como sendo "LL EE SS OO TT FF RR NN PP CC".[1]

As doze letras mais frequentes incluem cerca de 80% do uso total. As oito letras mais frequentes incluem cerca de 65% do uso total. Um espião com a cifra VIC ou alguma outra cifra baseada em um tabuleiro de xadrez straddling normalmente utiliza um mnemônico, como "a sin to err" (deixando de lado o segundo "r") para lembrar as 8 letras (a,s,i,n,t,o,e,r) mais frequentes (neste exemplo, em inglês).

A utilização das frequências das letras e análise de frequência desempenha um papel fundamental em vários jogos, incluindo jogo da forca, palavras cruzadas(Scrabble), e criptogramas, entre outros.

Frequências de letras tem um forte impacto no projeto de alguns teclados. As letras mais frequentes ficam na linha superior do teclado AZERTY. As letras mais frequentes ficam na linha inferior do teclado Blickensderfer. As letras mais frequentes ficam na linha central do teclado Simplificado Dvorak.

Frequências relativas das letras na língua inglesa[editar | editar código-fonte]

Frequências relativas das letras em textos. (língua inglesa)
Frequências relativas das letras ordenadas por frequência. (língua inglesa)

A frequência das letras na língua inglesa estão listadas abaixo.[2] [3] [4]

No entanto, esta tabela é um pouco diferente de outras, como a do Projeto da Universidade de Cornell Math Explorer[5] que avaliou mais de 40 000 palavras.

Letra Frequência
a 8.167%
b 1.492%
c 2.782%
d 4.253%
e 12.702%
f 2.228%
g 2.015%
h 6.094%
i 6.966%
j 0.153%
k 0.772%
l 4.025%
m 2.406%
n 6.749%
o 7.507%
p 1.929%
q 0.095%
r 5.987%
s 6.327%
t 9.056%
u 2.758%
v 0.978%
w 2.360%
x 0.150%
y 1.974%
z 0.074%

Em Inglês, o espaço é ligeiramente mais frequente do que a letra com mais frequência (7% mais frequentes do que, ou 107% mais frequente em relação à letra, e), e os caracteres não-alfabéticos (dígitos, pontuação, etc) ocupam o quarta posição, entre te a.[6]

Frequências relativas das primeiras letras de uma palavra no idioma Inglês e Português[editar | editar código-fonte]

Frequências de aparecimento como primeira letra de uma palavra:[7]

Letra Frequência
a 11.602%
b 4.702%
c 3.511%
d 2.670%
e 2.000%
f 3.779%
g 1.950%
h 7.232%
i 6.286%
j 0.631%
k 0.690%
l 2.705%
m 4.374%
n 2.365%
o 6.264%
p 2.545%
q 0.173%
r 1.653%
s 7.755%
t 16.671%
u 1.487%
v 0.619%
w 6.661%
x 0.005%
y 1.620%
z 0.050%

Frequências relativas das letras em outros idiomas[editar | editar código-fonte]

Frequência de uso de letras em espanhol
Letra Francês [8] Alemão [9] Espanhol [10] Português [11] Esperanto [12] Italiano[13] Turco Sueco[14] Polonês[15] Toki Pona [16] Holandês [17]
a 7.636% 6.51% 12.53% 14.63% 12.12% 11.74% 11.68% 9.3% 8.0% 17.2% 7.49%
b 0.901% 1.89% 1.42% 1.04% 0.98% 0.92% 2.95% 1.3% 1.3% 0.0% 1.58%
c 3.260% 3.06% 4.68% 3.88% 0.78% 4.5% 0.97% 1.3% 3.8% 0.0% 1.24%
d 3.669% 5.08% 5.86% 4.99% 3.04% 3.73% 4.87% 4.5% 3.0% 0.0% 5.93%
e 14.715% 17.40% 13.68% 12.57% 8.99% 11.79% 9.01% 9.9% 6.9% 7.4% 18.91%
f 1.066% 1.66% 0.69% 1.02% 1.03% 0.95% 0.44% 2.0% 0.1% 0.0% 0.81%
g 0.866% 3.01% 1.01% 1.30% 1.17% 1.64% 1.34% 3.3% 1.0% 0.0% 3.40%
h 0.737% 4.76% 0.70% 1.28% 0.38% 1.54% 1.14% 2.1% 1.0% 0.0% 2.38%
i 7.529% 7.55% 6.25% 6.18% 10.01% 11.28% 8.27%* 5.1% 7.0% 14.8% 6.50%
j 0.545% 0.27% 0.44% 0.40% 3.50% 0.00% 0.01% 0.7% 1.9% 3.0% 1.46%
k 0.049% 1.21% 0.01% 0.02% 4.16% 0.00% 4.71% 3.2% 2.7% 5.1% 2.25%
l 5.456% 3.44% 4.97% 2.78% 6.14% 6.51% 5.75% 5.2% 3.1% 10.2% 3.57%
m 2.968% 2.53% 3.15% 4.74% 2.99% 2.51% 3.74% 3.5% 2.4% 4.4% 2.21%
n 7.095% 9.78% 6.71% 5.05% 7.96% 6.88% 7.23% 8.8% 4.7% 11.6% 10.03%
o 5.378% 2.51% 8.68% 10.73% 8.78% 9.83% 2.45% 4.1% 7.1% 7.7% 6.06%
p 3.021% 0.79% 2.51% 2.52% 2.74% 3.05% 0.79% 1.7% 2.4% 3.7% 1.57%
q 1.362% 0.02% 0.88% 1.20% 0.00% 0.51% 0 0.007% - 0.0% 0.009%
r 6.553% 7.00% 6.87% 6.53% 5.91% 6.37% 6.95% 8.3% 3.5% 0.0% 6.41%
s 7.948% 7.27% 7.98% 7.81% 6.09% 4.98% 2.95% 6.3% 3.8% 4.1% 3.73%
t 7.244% 6.15% 4.63% 4.74% 5.27% 5.62% 3.09% 8.7% 2.4% 4.6% 6.79%
u 6.311% 4.35% 3.93% 4.63% 3.18% 3.01% 3.43% 1.8% 1.8% 3.2% 1.99%
v 1.628% 0.67% 0.90% 1.67% 1.90% 2.10% 0.98% 2.4% - 0.0% 2.85%
w 0.114% 1.89% 0.02% 0.01% 0.00% 0.00% 0 0.03% 3.6% 2.8% 1.52%
x 0.387% 0.03% 0.22% 0.21% 0.00% 0.00% 0 0.1% - 0.0% 0.04%
y 0.308% 0.04% 0.90% 0.01% 0.00% 0.00% 3.37% 0.6% 3.2% 0.0% 0.035%
z 0.136% 1.13% 0.52% 0.47% 0.50% 0.49% 1.50% 0.02% 5.1% 0.0% 1.39%
à 0.486% 0 0 ver a 0 ver a 0 0.0% 0 - ver a
å 0 0 0 0 0 0 0 1.6% 0 - -
ä 0 - 0 0 0 0 0 2.1% 0 - ver a
ą 0 - 0 0 0 0 0 0 ver a - -
œ 0.018% 0 0 0 0 0 0 0 0 - -
ç 0.085% 0 0 ver c 0 0 1.26% 0 0 - -
ĉ 0 0 0 0 0.66% 0 0 0 0 - -
ć 0 - 0 0 0 0 0 0 ver c - -
è 0.271% 0 0 0 0 ver e 0 0.0% 0 - ver e
é 1.904% 0 0 ver e 0 ver e 0 0.0% 0 - ver e
ê 0.225% 0 0 ver e 0 0 0 0 0 - -
ë 0.000% 0 0 0 0 0 0 0 0 - ver e
ę 0 - 0 0 0 0 0 0 see e - -
ĝ 0 0 0 0 0.69% 0 0 0 0 - -
ğ 0 0 0 0 0 0 1.13% 0 0 - -
ĥ 0 0 0 0 0.02% 0 0 0 0 - -
î 0.045% 0 0 0 0 0 0 0 0 0 -
ì 0 0 0 0 0 see i 0 0 0 - see i
ï 0.005% 0 0 0 0 0 0 0 0 - ver i
ı 0 0 0 0 0 0 5.20%* 0 0 - -
ĵ 0 0 0 0 0.12% 0 0 0 0 - -
ł 0 - 0 0 0 0 0 0 ver l - -
ñ 0 0 0.31% 0 0 0 0 0 0 - -
ń 0 - 0 0 0 0 0 0 ver n - -
ò 0 0 0 0 0 ver o 0 0 0 - ver o
ö 0 - 0 0 0 0 0.87% 1.5% 0 - ver o
ó 0 - 0 ver o 0 0 0 0 ver o - ver o
ŝ 0 0 0 0 0.38% 0 0 0 0 - -
ş 0 0 0 0 0 0 1.94% 0 0 - -
ś 0 - 0 0 0 0 0 0 ver s - -
ß 0 0.31% 0 0 0 0 0 0 0 - -
ù 0.058% 0 0 0 0 ver u 0 0 0 - ver u
ŭ 0 0 0 0 0.52% 0 0 0 0 - -
ü 0 - 0 0 0 0 1.99% 0 0 - ver u
ź 0 - 0 0 0 0 0 0 ver z - -
ż 0 - 0 0 0 0 0 0 0.7% - -

Com base nessas tabelas, os resultados do 'etaoin shrdlu'-equivalente para cada idioma é o seguinte:

  • Francês: 'esait nrulo'; (Indo-Europeu: Românico; tradicionalmente, 'esartinulop' é utilizada, em parte por sua facilidade de pronúncia[18] )
  • Espanhol: 'eaosr nidlc'; (Indo-Europeu: Românico)
  • Português: 'aeosr indmt' (Indo-Europeu: Românico)
  • Italiano: 'eaion lrtsc'; (Indo-Europeu: Românico)
  • Esperanto: 'aieon lsrtk' (Língua artificial – influenciada por línguas indo-européias, Românico, Germanico em sua maioria)
  • Alemão: 'enisr atdhu'; (Indo-Europeu: Germanico)
  • Sueco: 'eantr slido'; (Indo-Europeu: Germanico)
  • Turco: 'aeinr ldkmu'; (Turkic: uma língua não indo-européia)
  • Holandês: 'enati rodsl'; (Indo-Europeu: Germanico)[19]
  • Polaco: 'aoiez nscwr'; (Indo-Europeu: Eslavo)

Todas estas línguas usam um alfabeto basicamente similar de 25+ caracteres alfabéticos.

Ver também[editar | editar código-fonte]

Referências

  1. Zim, Herbert Spencer. Codes and secret writing(abridged edition). Scholastic Book Services, fourth printing, 1962.Copyright 1948 Herbert S. Zim. Originally published by William Morrow.
  2. Beker, Henry; Piper, Fred. Cipher Systems: The Protection of Communications. [S.l.]: Wiley-Interscience, 1982. 397 p.
  3. Lewand, Robert. Cryptological Mathematics. [S.l.]: The Mathematical Association of America, 2000. 36 p. ISBN 978-0883857199
  4. [1]
  5. [http://www.math.cornell.edu/~mec/2003-2004/cryptography/subs/frequencies.html esta tabela]
  6. Lee, E. Stewart; Essays about Computer Security; University of Cambridge Computer Laboratory, p. 181
  7. Calculado a partir de "Seleções do Projeto Gutenberg" disponível a partir de NLTK Corpora
  8. CorpusDeThomasTempé. Página visitada em 2007-06-15.
  9. Albrecht Beutelspacher, Kryptologie, 7. Aufl., Wiesbaden: Vieweg Verlagsgesellschaft, 2005, ISBN 3-8348-0014-7, p.10
  10. Fletcher Pratt, Secret and Urgent: the Story of Codes and Ciphers Blue Ribbon Books, 1939, pp. 254-255.
  11. Frequência da ocorrência de letras no Português. Página visitada em 2009-06-16.
  12. La Oftecoj de la Esperantaj Literoj. Página visitada em 2007-09-14.
  13. Simon Singh, Codici e Segreti, 1999, RCS, ISBN 88-17-12539-3
  14. Simon Singh, Kodboken, 1999, Norstedts, ISBN 91-1-1300708-4
  15. Wstęp do kryptologii, counting [space] 17.2%, [dot point] 0.9%, [comma] 0.9% and [semicolon] 0.5%
  16. lipu pi jan Jakopo pi toki pona. Página visitada em 2007-09-14.
  17. Letterfrequenties. Genootschap OnzeTaal. Página visitada em 2009-05-17.
  18. Perec, Georges; Alphabets; Éditions Galilée, 1976
  19. Letterfrequenties. Genootschap OnzeTaal.

Ligações externas[editar | editar código-fonte]