Lei de Zipf

Origem: Wikipédia, a enciclopédia livre.

A Lei de Zipf é uma lei empírica formulada utilizando estatísticas matemáticas que se refere ao fato de que para muitos tipos de dados estudados nas ciências físicas e sociais, a distribuição de frequência de classificação é uma relação inversa[1]. A distribuição zipfiana esta inserida dentro da família de leis de distribuições de probabilidades poder discreta relacionadas. Está relacionado com a distribuição de zeta, mas não é idêntica.

A lei de Zipf foi originalmente formulada em termos de linguística quantitativa, afirmando que, dado algum corpus de expressões linguísticas naturais, a frequência de qualquer palavra é inversamente proporcional à sua classificação na tabela de frequências. Assim, a palavra mais frequente ocorrerá aproximadamente duas vezes mais frequentemente do que a segunda palavra mais frequente, três vezes mais vezes que a terceira palavra mais frequente, e assim sucessivamente. Não há consenso na literatura, porém, sobre o que causa o fenômeno[2].

A lei é nomeada em homenagem à George Kingsley Zipf, linguista da Universidade de Harvard, que a popularizou na década de 1940 por meio de sua obra Human Behaviour and the Principle of Least-Effort ("Comportamento Humano e o Principio do Menor Esforço").[3][1] Apesar disso, porém, alguns estudiosos já haviam notado essa regularidade antes de Zipf, como o estenógrafo francês Jean-Baptiste Estoup[4], e o físico alemão Felix Auerbach, em 1913[5].

A Lei de Zipf é semelhante em conceito, embora não idêntico na distribuição, à Lei de Benford.


Trata-se de uma lei de potências sobre a distribuição de valores de acordo com o nº de ordem numa lista. Numa lista, o membro n teria uma relação de valor com o 1º da lista segundo 1/n. Por exemplo, numa língua a frequência com que surgem as diversas palavras segue uma distribuição que se pode aproximar por:

onde Pn representa a frequência de uma palavra ordenada na n-ésima posição e o expoente a é próximo da unidade. Isto significa que o segundo elemento se repetirá aproximadamente com uma frequência que é metade da do primeiro, e o terceiro elemento com uma frequência de 1/3 e assim sucessivamente. Uma lei não empírica, mas mais precisa, derivada dos trabalhos de Claude Shannon foi descoberta por Benoît Mandelbrot.

Os campos de aplicação da lei de Zipf são diversos, e são também várias as tendências de pensamento que a têm proposto como contrapartida à distribuição gaussiana no âmbito das ciências sociais. Na realidade, nas ciências sociais não se segue sempre uma distribuição gaussiana, mas também não se segue sempre a lei de Zipf.

Génese[editar | editar código-fonte]

Frequência das palavras em função da ordem na versão original de Ulisses de James Joyce.

Zipf analisou a obra monumental de James Joyce, Ulisses, e contou as palavras distintas, ordenando-as por frequência. Verificou-se que:

  • a palavra mais comum surgia 8000 vezes;
  • a décima, 800 vezes;
  • a centésima, 80 vezes;
  • a milésima, 8 vezes.

Os resultados fazem parecer, à luz de outros estudos que podem ser feitos rapidamente com qualquer computador, demasiado precisos para serem perfeitamente exatos, e em estudos similares a décima palavra mais comum surge cerca de 1000 vezes, por via de um efeito de cauda observado nesta distribuição. A lei de Zipf prevê que num dado texto, a frequência de ocorrência f(n) de uma palavra esteja ligada à sua ordem n na ordem das frequências por uma lei da forma: onde K é uma constante.

Aplicações[editar | editar código-fonte]

Durante algum tempo, acreditava-se que o livro medieval Código Voynich, indecifrado até hoje, pudesse ser um livro falso, uma fraude. Porém, como o texto do Código segue a Lei de Zipf, isso indica que o livro deve estar escrito em alguma linguagem desconhecida, ao invés de ser pura invenção. [6]

Ver também[editar | editar código-fonte]

Leituras complementares[editar | editar código-fonte]

Principais:

Secundárias:

Referências

  1. a b Laura Cerqueira, Armando Malheiro da Silva (2007). «Uma abordagem infométrica no âmbito da Ciência de Informação a propósito dos dez anos de edição das Páginas a&b» (PDF) 
  2. poder360.com.br/ O guarda-chuva do presidente
  3. «lei de Zipf». Arquivado do original em 3 de dezembro de 2010 
  4. Christopher D. Manning, Hinrich Schütze Foundations of Statistical Natural Language Processing, MIT Press (1999), ISBN 978-0-262-13360-9, p. 24
  5. Auerbach F. (1913) Das Gesetz der Bevölkerungskonzentration. Petermann’s Geographische Mitteilungen 59, 74–76
  6. «O livro mais misterioso do mundo». El País. 12 de dezembro de 2015. Consultado em 15 de dezembro de 2015 

Ligações externas[editar | editar código-fonte]