Lei de Zipf
A Lei de Zipf, formulada na década de 1940 por George Kingsley Zipf, linguista da Universidade de Harvard, na sua obra Human Behaviour and the Principle of Least-Effort ("Comportamento Humano e o Principio do Menor Esforço"), é uma lei empírica a qual rege a dimensão, importância ou frequência dos elementos de uma lista ordenada.1 2 Trata-se de uma lei de potências sobre a distribuição de valores de acordo com o nº de ordem numa lista. Numa lista, o membro n teria uma relação de valor com o 1º da lista segundo 1/n. Por exemplo, numa língua a frequência com que surgem as diversas palavras segue uma distribuição que se pode aproximar por:
onde Pn representa a frequência de uma palavra ordenada na n-ésima posição e o expoente a é próximo da unidade. Isto significa que o segundo elemento se repetirá aproximadamente com uma frequência que é metade da do primeiro, e o terceiro elemento com uma frequência de 1/3 e assim sucessivamente. Uma lei não empírica, mas mais precisa, derivada dos trabalhos de Claude Shannon foi descoberta por Benoît Mandelbrot.
Os campos de aplicação da lei de Zipf são diversos, e são também várias as tendências de pensamento que a têm proposto como contrapartida à distribuição gaussiana no âmbito das ciências sociais. Na realidade, nas ciências sociais não se segue sempre uma distribuição gaussiana, mas também não se segue sempre a lei de Zipf.
Índice |
Génese[editar]
Zipf analisou a obra monumental de James Joyce, Ulisses, e contou as palavras distintas, ordenando-as por frequência. Verificou-se que:
- a palavra mais comum surgia 8000 vezes;
- a décima, 800 vezes;
- a centésima, 80 vezes;
- a milésima, 8 vezes.
Os resultados fazem parecem, à luz de outros estudos que se podem fazer rapidamente com qualquer computador, demasiado precisos para serem perfeitamente exatos, e em estudos similares a décima palavra mais comum surge cerca de 1000 vezes, por via de um efeito de cauda observado nesta distribuição. A lei de Zipf prevê que num dado texto, a frequência de ocorrência f(n) de uma palavra esteja ligada à sua ordem n na ordem das frequências por uma lei da forma:
onde K é uma constante.
Ver também[editar]
Leituras complementares[editar]
Principais:
- George K. Zipf (1949) Human Behavior and the Principle of Least Effort. Addison-Wesley.
- George K. Zipf (1935) The Psychobiology of Language. Houghton-Mifflin. (citações em http://citeseer.ist.psu.edu/context/64879/0 )
Secundárias:
- Gelbukh, Alexander, and Sidorov, Grigori (2001) "Zipf and Heaps Laws’ Coefficients Depend on Language". Proc. CICLing-2001, Conference on Intelligent Text Processing and Computational Linguistics, February 18–24, 2001, Mexico City. Lecture Notes in Computer Science N 2004, ISSN 0302-9743, ISBN 3-540-41687-0, Springer-Verlag: 332–335.
- Damián H. Zanette (2006) "Zipf's law and the creation of musical context," Musicae Scientiae 10: 3-18.
- Kali R. (2003) "The city as a giant component: a random graph approach to Zipf's law," Applied Economics Letters 10: 717-720(4)
- Gabaix, Xavier (agosto 1999). "Zipf's Law for Cities: An Explanation". Quarterly Journal of Economics 114 (3): 739–67. DOI:10.1162/003355399556133. ISSN 0033-5533.
Referências
- ↑ lei de Zipf.
- ↑ Laura Cerqueira, Armando Malheiro da Silva (2007). Uma abordagem infométrica no âmbito da Ciência de Informação a propósito dos dez anos de edição das Páginas a&b.
Ligações externas[editar]
- La ley de Zipf por Javier Sampedro, El País, 13 de dezembro de 2009 (em espanhol)
- Zipf - Lista de palavras do léxico francês, com frequências
- Zipf - Lista de palavras do léxico português, com frequências - retirado do Project Gutenberg, pelo que inclui palavras noutras línguas retiradas de textos complementares aos disponíveis no site
- Zipf - Lista de palavras para os léxicos inglês, francês espanhol, italiano, sueco, islandês, latim, português e finlandês, do Gutenberg Project. Inclui calculadora online para cálculo de frequências de palavras em textos
