Lei de Zipf

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa

A Lei de Zipf, formulada na década de 1940 por George Kingsley Zipf, linguista da Universidade de Harvard, na sua obra Human Behaviour and the Principle of Least-Effort ("Comportamento Humano e o Principio do Menor Esforço"), é uma lei empírica a qual rege a dimensão, importância ou frequência dos elementos de uma lista ordenada.[1] [2] Trata-se de uma lei de potências sobre a distribuição de valores de acordo com o nº de ordem numa lista. Numa lista, o membro n teria uma relação de valor com o 1º da lista segundo 1/n. Por exemplo, numa língua a frequência com que surgem as diversas palavras segue uma distribuição que se pode aproximar por:

P_n \sim 1/n^a

onde Pn representa a frequência de uma palavra ordenada na n-ésima posição e o expoente a é próximo da unidade. Isto significa que o segundo elemento se repetirá aproximadamente com uma frequência que é metade da do primeiro, e o terceiro elemento com uma frequência de 1/3 e assim sucessivamente. Uma lei não empírica, mas mais precisa, derivada dos trabalhos de Claude Shannon foi descoberta por Benoît Mandelbrot.

Os campos de aplicação da lei de Zipf são diversos, e são também várias as tendências de pensamento que a têm proposto como contrapartida à distribuição gaussiana no âmbito das ciências sociais. Na realidade, nas ciências sociais não se segue sempre uma distribuição gaussiana, mas também não se segue sempre a lei de Zipf.

Génese[editar | editar código-fonte]

Frequência das palavras em função da ordem na versão original de Ulisses de James Joyce.

Zipf analisou a obra monumental de James Joyce, Ulisses, e contou as palavras distintas, ordenando-as por frequência. Verificou-se que:

  • a palavra mais comum surgia 8000 vezes;
  • a décima, 800 vezes;
  • a centésima, 80 vezes;
  • a milésima, 8 vezes.

Os resultados fazem parecer, à luz de outros estudos que podem ser feitos rapidamente com qualquer computador, demasiado precisos para serem perfeitamente exatos, e em estudos similares a décima palavra mais comum surge cerca de 1000 vezes, por via de um efeito de cauda observado nesta distribuição. A lei de Zipf prevê que num dado texto, a frequência de ocorrência f(n) de uma palavra esteja ligada à sua ordem n na ordem das frequências por uma lei da forma: f(n)=\frac{K}{n} onde K é uma constante.

Ver também[editar | editar código-fonte]

Leituras complementares[editar | editar código-fonte]

Principais:

Secundárias:

Referências

Ligações externas[editar | editar código-fonte]