Divergência de Kullback-leibler

A divergência de Kullback-Leibler (também chamada de entropia relativa) é uma medida não-simétrica da diferença entre duas distribuições de probabilidade.^[1]^[2]

Especificamente, A divergência de Kullback–Leibler de Q dado P, indicada com D_KL(P||Q), é a medida da informação perdida quando Q è usada para aproximar o valor de P:^[3] Ainda que frequentemente vista como uma distância, a divergência KL não é, estritatemente, uma métrica de distância. Por exemplo, falta-le simetria: a KL de P dado Q não é, de forma geral, a mesma KL de Q dado P.

Uma divergência de Kullback-Leibler igual a 0 indica que as funçõe/distribuições P e Q são muito parecidas (iguais, até), enquanto uma divergência de 1 indica que se comportam de maneira diferente.

As aplicações da medida incluem a caracterização da entropia (teoria da informação) em sistemas de informação, a aleatoriedade, em séries temporais, ganho de informação ao comparar com modelos estatísticos de inferência. Em versões simplificadas, é usada também em estatística aplicada, mecânica dos fluidos, neurociência e aprendizado de máquina.

Etimologia[editar | editar código-fonte]

A divergência de Kullback-Leibler foi introduzida por Solomon Kullback e Richard Leibler em 1951 como a divergência, distância entre duas distribuições; Kullback preferiu o termo 'informação de discriminação' . ^[4]

Interpretações[editar | editar código-fonte]

A divergência de Kullback-Leibler de Q para P é frequentemente denotada com D_KL(P‖Q ).

No contexto do aprendizado de máquina, D_KL( P‖Q ) é frequentemente chamado de ganho de informação alcançado se Q for usado ao invés de P. Por analogia com a teoria da informação, também é chamada de entropia relativa de P em relação a Q. No contexto da teoria de codificação, D _KL(P‖Q) pode ser interpretado como medida do número esperado de bits extras bits necessários para código amostras de P usando um código optimizado para Q ao invés do código optimizado para P.

Na visão de Inferência Bayesiana, D_KL (P‖Q) é uma medida da informação obtida quando alguém revê suas crenças da distribuição de probabilidade inicial Q para distribuição de probabilidade final P. Em outras palavras, é a quantidade de informação perdida quando Q é usado para aproximar P. ^[5] Em aplicações, P tipicamente representa a distribuição "verdadeira" de dados, observações, ou uma distribuição teórica precisamente calculada, enquanto Q tipicamente representa uma teoria, modelo , descrição ou aproximação de P. Para encontrar uma distribuição Q mais próxima de P, podemos minimizar a divergência de KL e computar uma projeção de informação.

A divergência de Kullback-Leibler é um caso especial de uma classe mais ampla de divergências chamada divergências f assim como a classe de divergência de Bregman. É a única divergência sobre probabilidades que é um membro de ambas as classes. Muitas vezes é intuído pensar como uma forma de medir a distância entre distribuições de probabilidade, a divergência de Kullback-Leibler não é uma verdadeiramente métrica. Ela não obedece à desigualdade triangular e, em geral, D_KL( P‖Q ) não é igual a D_KL( Q‖P ). No entanto, sua forma infinitesimal, especificamente sua Hessiana, fornece um tensor métrico conhecido como informação de Fisher.

Definição[editar | editar código-fonte]

Para uma distribuição discreta de probabilidade P e Q, a divergência de Kullback-Leibler de Q para P 'é definida.^[6] como,

D_{\mathrm {KL} }(P\|Q)=-\sum _{i}P(i)\,\log {\frac {Q(i)}{P(i)}},

o que é equivalente a

D_{\mathrm {KL} }(P\|Q)=\sum _{i}P(i)\,\log {\frac {P(i)}{Q(i)}}.

Em outras palavras, é a expectativa da diferença logarítmica entre as probabilidades P e Q, onde a expectativa é obtida usando as probabilidades P. A divergência de Kullback-Leibler é definida apenas se para todo i, Q(i) =0 implica P(i)=0 (continuidade absoluta). Sempre que P(i) é zero, a contribuição do i-ésimo termo é interpretado como zero pois $\lim _{x\to 0}x\log(x)=0$ .

Para as distribuições P e Q de uma variável aleatória contínua, a divergência de Kullback-Leibler é definida como sendo a integral:^[7]

D_{\mathrm {KL} }(P\|Q)=\int _{-\infty }^{\infty }p(x)\,\log {\frac {p(x)}{q(x)}}\,dx,

onde p e q denotam as densidades de P e Q.

De modo geral, se P e Q são probabilidade medida sobre um conjunto X, e P é absolutamente contínua em relação a Q, então o Kullback-Leibler divergência de Q para P é definida como

D_{\mathrm {KL} }(P\|Q)=\int _{X}\log {\frac {dP}{dQ}}\,dP,

Onde ${\frac {dP}{dQ}}$ é a derivada de Radon-Nikodym de P em relação a Q, garantindo dado que a expressão do lado direito exista. Equivalente, isso pode ser escrito como

D_{\mathrm {KL} }(P\|Q)=\int _{X}\log \!\left({\frac {dP}{dQ}}\right){\frac {dP}{dQ}}\,dQ,

que é a entropia de P em relação a Q. Continuando neste caso, se $\mu$ é uma medida em X para o qual $p={\frac {dP}{d\mu }}$ e $q={\frac {dQ}{d\mu }}$ existita (o que significa que p e q são absolutamente contínuas em relação a $\mu$ ), então a divergência Kullback–Leibler de Q a P é dada como

D_{\mathrm {KL} }(P\|Q)=\int _{X}p\,\log {\frac {p}{q}}\,d\mu .\!

Os logaritmos destas fórmulas são tomados na base 2 se a informação é medida em unidades de bits ou na base e se a informação é medida em nat s. A maioria das fórmulas envolvendo a divergência de Kullback-Leibler são verdadeiras independente da base do logaritmo.

Existem várias convenções para se referir a D_KL(P‖Q) em palavras. Muitas vezes é referida como a divergência entre P e Q; no entanto, isso não consegue transmitir a assimetria fundamental na relação. Às vezes, como neste artigo, pode ser encontrada descrita como a divergência de P a partir de, ou em relação a Q. Isso reflete a assimetria na inferência bayesiana, que inicia de um Q anterior e atualiza para o P posterior.

Referências

↑ Kullback, S.; Leibler, R.A. (1951). «On information and sufficiency». Annals of Mathematical Statistics. 22 (1): 79–86. MR 39968. doi:10.1214/aoms/1177729694
↑ Kullback, S. (1959), Information Theory and Statistics, John Wiley & Sons . Republished by Dover Publications in 1968; reprinted in 1978: ISBN 0-8446-5625-9.
↑ Kenneth P. Burnham, David R. Anderson (2002), Model Selection and Multi-Model Inference: A Practical Information-Theoretic Approach. Springer. (2nd ed), p.51
↑ Kullback, S. (1987). «Letter to the Editor: The Kullback–Leibler distance». The American Statistician. 41 (4): 340–341. JSTOR 2684769. doi:10.1080/00031305.1987.10475510
↑ Burnham, K. P.; Anderson, D. R. (2002). Model Selection and Multi-Model Inference 2nd ed. [S.l.]: Springer. p. 51
↑ MacKay, David J.C. (2003). Information Theory, Inference, and Learning Algorithms First ed. [S.l.]: Cambridge University Press. p. 34
↑ Bishop C. (2006). Pattern Recognition and Machine Learning p. 55.

[1] Kullback, S.; Leibler, R.A. (1951). «On information and sufficiency». Annals of Mathematical Statistics. 22 (1): 79–86. MR 39968. doi:10.1214/aoms/1177729694

[Kullback-2] Kullback, S. (1959), Information Theory and Statistics, John Wiley & Sons . Republished by Dover Publications in 1968; reprinted in 1978: ISBN 0-8446-5625-9.

[3] Kenneth P. Burnham, David R. Anderson (2002), Model Selection and Multi-Model Inference: A Practical Information-Theoretic Approach. Springer. (2nd ed), p.51

[4] Kullback, S. (1987). «Letter to the Editor: The Kullback–Leibler distance». The American Statistician. 41 (4): 340–341. JSTOR 2684769. doi:10.1080/00031305.1987.10475510

[5] Burnham, K. P.; Anderson, D. R. (2002). Model Selection and Multi-Model Inference 2nd ed. [S.l.]: Springer. p. 51

[6] MacKay, David J.C. (2003). Information Theory, Inference, and Learning Algorithms First ed. [S.l.]: Cambridge University Press. p. 34

[7] Bishop C. (2006). Pattern Recognition and Machine Learning p. 55.

[1]

[2]

[3]

[4]

[5]

[6]

[7]