Perplexidade

Origem: Wikipédia, a enciclopédia livre.

Em teoria da informação, a perplexidade é uma medida de quão bem uma distribuição de probabilidade ou modelo de probabilidade prevê uma amostra. Pode ser usada para comparar modelos de probabilidade. Uma baixa perplexidade indicada que a distribuição de probabilidade é boa em prever a amostra.[1]

Perplexidade de uma distribuição de probabilidade[editar | editar código-fonte]

A perplexidade de uma distribuição de probabilidade discreta é definida como:

em que é a entropia (em bits) da distribuição e varia sobre os eventos, ou seja, a perplexidade é igual a 2 elevado à entropia ou, mais precisamente, 2 elevado à entropia cruzada, definição esta usada frequentemente na comparação empírica de modelos probabilísticos.

A perplexidade de uma variável aleatória pode ser definida como a perplexidade da distribuição sobre seus possíveis valores .

No caso especial em que modela um dado honesto de -faces (uma distribuição uniforme sobre eventos discretos), sua perplexidade é . Uma variável aleatória com perplexidade tem a mesma incerteza de um dado honesto de -faces e é considerada "perplexa em -formas" sobre o valor da variável aleatória. A não ser que seja um dado honesto de -faces, mais que valores serão possíveis, mas a incerteza geral não é maior, porque alguns destes valores terão probabilidade maior que , diminuindo o valor geral ao somar.

A perplexidade é algumas vezes usada como uma medida de quão difícil um problema de previsão é. Isto não é sempre preciso. Se você tiver duas escolhas, uma com probabilidade , então suas chances de um palpite correto são iguais a usando a estratégia ótima. A perplexidade é . O inverso da perplexidade, que representa a probabilidade de um palpite correto no caso do dado honesto de -faces, é igual à , não .

A perplexidade é a exponenciação da entropia, que é uma quantidade com contorno mais nítido. A entropia é uma medida do número esperado ou "médio" de bits exigido para codificar o resultado da variável aleatória, usando o código de comprimento variável, ótimo e teórico. Pode ser equivalentemente considerada como o ganho de informação esperado ao aprender o resultado da variável aleatória, em que a informação é medida em bits.[2]

Perplexidade de um modelo de probabilidade[editar | editar código-fonte]

Um modelo de uma distribuição de probabilidade desconhecida pode ser proposto com base em uma amostra de treinamento que foi retirada de . Dado um modelo de probabilidade proposto , pode-se avaliar ao perguntar quão bem ele prevê uma amostra de teste separada também retirada de . A perplexidade do modelo é definida como:

em que é costumeiramente . Modelos melhores da distribuição desconhecida tenderão a atribuir probabilidades maiores aos eventos de teste. Assim, têm menor perplexidade, sendo menos surpreendidos pela amostra de teste.

O expoente acima pode ser considerado como o número médio de bits necessários para representar um evento de teste se for usado um código ótimo baseado em . Modelos de baixa perplexidade fazem um melhor trabalho comprimindo a amostra de teste, exigindo poucos bits por elemento de teste em média porque tende a ser alta.

O expoente pode também ser considerado uma entropia cruzada:

em que denota a distribuição empírica da amostra de teste, isto é, , se tiver aparecido vezes na amostra de teste de tamanho .[3]

Perplexidade por palavra[editar | editar código-fonte]

Em processamento de linguagem natural, a perplexidade é uma forma de avaliar modelos de linguagem. Um modelo de linguagem é uma distribuição de probabilidade sobre sentenças ou textos inteiros.

Usando a definição de perplexidade para um modelo de probabilidade, pode-se encontrar, por exemplo, que a sentença média na amostra de teste poderia ser codificada em 190 bits, isto é, as sentenças de teste tinham um logaritmo de probabilidade médio igual a -190. Isto daria uma perplexidade de modelo enorme de por sentença. Entretanto, é mais comum normalizar o comprimento de sentença e considerar apenas o número de bits por palavra. Assim, se as frases da amostra de teste compreenderem um total de 1.000 palavras e puderem ser codificadas usando um total de 7,95 bits por palavra, poderá se relatada uma perplexidade de modelo de por palavra. Em outras palavras, o modelo é tão confuso em dados de teste quanto se tivesse que escolher uniformemente e independentemente entre 247 possibilidades para cada palavra.

Até 1992, a mais baixa perplexidade publicada no Brown Corpus (lista de 1 milhão de palavras em inglês norte-americano sobre variados tópicos e gêneros) havia sido de fato aproximadamente 247 por palavra, correspondendo a uma entropia cruzada de bits por palavra ou 1,75 bits por letra, usando um modelo trigrama. É frequentemente possível conseguir uma perplexidade mais baixa em corpora mais especializados, já que são mais previsíveis.

Novamente, simplesmente prever que a próxima palavra no Brown Corpus é a palavra "the" terá uma precisão de 7%, não de , como um uso ingênuo da perplexidade como uma medida de previsibilidade pode levar alguém a crer. Este palpite é baseado na estatística de unigrama do Brown Corpus, não na estatística de trigrama, que produziu a perplexidade de palavra igual a 247. Usar a estatística de trigrama melhoraria posteriormente as chances de um palpite correto.[4]

Referências[editar | editar código-fonte]

  1. Gibbon, Dafydd; Moore, Roger; Winski, Richard (1998). Handbook of Standards and Resources for Spoken Language Systems: Spoken language characterisation (em inglês). Berlim: Walter de Gruyter. ISBN 9783110157345. Consultado em 1 de março de 2018 
  2. Nugues, Pierre M. (2014). Language Processing with Perl and Prolog: Theories, Implementation, and Application (em inglês). Berlim: Springer. ISBN 9783642414640. Consultado em 1 de março de 2018 
  3. Manning, Christopher D.; Schütze, Hinrich (1999). Foundations of Statistical Natural Language Processing (em inglês). Cambridge, Massachusetts: MIT Press. ISBN 9780262133609. Consultado em 1 de março de 2018 
  4. Brown, Peter F.; Pietra, Vincent J. Della; Mercer, Robert L.; Pietra, Stephen A. Della; Lai, Jennifer C. (1 de março de 1992). «An estimate of an upper bound for the entropy of English». Computational Linguistics. 18 (1): 31–40. ISSN 0891-2017. Consultado em 1 de março de 2018