Saltar para o conteúdo

Entropia cruzada

Origem: Wikipédia, a enciclopédia livre.

Na teoria da informação, a entropia cruzada se refere à diferença entre duas distribuições de probabilidade (verdadeira) e (estimada) sobre o mesmo conjunto de eventos. Na prática, a entropia cruzada mede o número médio de bits necessários para identificar um evento , se a codificação utilizada for otimizada para a distribuição de probabilidade estimada , em vez de otimizada para a distribuição de probabilidade verdadeira .

A entropia cruzada da distribuição em relação a uma distribuição sobre um determinado conjunto é definido da seguinte maneira:

.

A definição pode ser formulada usando a divergência Kullback – Leibler do a partir de (também conhecida como entropia relativa de em relação a )

,

Onde é a entropia de .

Para distribuições de probabilidade discretas e com o mesmo suporte , isso significa queː

 

 

 

 

(Eq.1)

A situação para distribuições contínuas é análoga. Temos que assumir que e são absolutamente contínuos em relação a alguma medida de referência (usualmente é uma medida de Lebesgue em uma σ-álgebra de Borel ). Deixe e serem funções densidade de probabilidade de e em relação a . Entãoː

e, portantoː

 

 

 

 

(Eq.2)

Nota: A notação também é usado para um conceito diferente, a entropia conjunta de e .

Na teoria da informação, o teorema de Kraft – McMillan estabelece que qualquer esquema diretamente decodificável que codifique uma mensagem capaz de identificar um valor ( de um conjunto de possibilidades ) pode ser visto como representando uma distribuição implícita de probabilidade sobre , onde é o comprimento do código para em bits. Portanto, a entropia cruzada pode ser interpretada como o comprimento esperado da mensagem por cada dado quando a distribuição incorreta é assumida, enquanto, na verdade, os dados seguem a distribuição correta . É por isso que a expectativa (E) é assumida sobre a distribuição de probabilidade e não . De fato, o tamanho esperado da mensagem sob a verdadeira distribuição é,

Existem muitas situações em que precisamos medir a entropia cruazada, mas não sabemos a distribuição real É. Um exemplo é a modelagem de linguagem, na qual um modelo é criado com base no conjunto de treinamento e sua entropia cruzada é medida em um conjunto de testes para avaliar a precisão. Neste exemplo, é a verdadeira distribuição das palavras em qualquer corpus, e é a distribuição de palavras conforme previsto pelo modelo. Como a distribuição verdadeira é desconhecida, a entropia cruzada não pode ser calculada diretamente. Nesses casos, uma estimativa da entropia cruzada é calculada usando a seguinte fórmula:

onde é o tamanho do conjunto de teste e é a probabilidade de evento estimado a partir do conjunto de treinamento. A soma é calculada sobre . Essa é uma estimativa de Monte Carlo da verdadeira entropia cruzada, na qual o conjunto de testes é tratado como amostras de   .

Relação com log-verossimilhança

[editar | editar código-fonte]

Nos problemas de classificação, queremos estimar a probabilidade de resultados diferentes. Se a probabilidade estimada de resultado é , a frequência (probabilidade empírica) de no conjunto de treinamento é e há N amostras de treinamento, a verossimilhança do conjunto de treinamento é

portanto, a log-verossimilhança, dividida por é

de modo que maximizar a verossimilhança é o mesmo que minimizar a entropia cruzada.

Minimização de entropia cruzada

[editar | editar código-fonte]

A minimização de entropia cruzada é freqüentemente usada na otimização e na estimativa da probabilidade de eventos raros.

Ao comparar uma distribuição contra uma distribuição de referência fixa , entropia cruzada e divergência KL são idênticas até uma constante aditiva (já que é fixo): ambos assumem seus valores mínimos quando , atingindo para a divergência KL e para a entropia cruzada.[1] Na literatura de engenharia, o princípio de minimizar a divergência KL (" Princípio da informação mínima sobre discriminação " de Kullback) é freqüentemente chamado de Princípio da entropia cruzada mínima (MCE), ou Minxent .

Entretanto, conforme discutido no artigo Divergência de Kullback-Leibler, às vezes a distribuição é a distribuição de referência prévia fixa e a distribuição é otimizado para ficar o mais próximo possível quanto possível, sujeito a alguma restrição. Nesse caso, as duas minimizações não são equivalentes. Isso levou a alguma ambiguidade na literatura, com alguns autores tentando resolver a inconsistência redefinindo a entropia cruzada para ser , ao invés de .

Função de perda de entropia cruzada e regressão logística

[editar | editar código-fonte]

A entropia cruzada pode ser usada para definir uma função de perda no aprendizado de máquina e otimização . A verdadeira probabilidade é o rótulo verdadeiro e a distribuição fornecida é o valor previsto do modelo atual.

Mais especificamente, considere a regressão logística, que (entre outras coisas) pode ser usada para classificar observações em duas classes possíveis (geralmente simplesmente rotuladas e ) A saída do modelo para uma observação, dado um vetor de entrada , pode ser interpretado como uma probabilidade, que serve como base para classificar a observação. A probabilidade é modelada usando a função logística Onde é alguma função do vetor de entrada , geralmente apenas uma função linear. A probabilidade de saída É dado por

onde o vetor de pesos é otimizado através de algum algoritmo apropriado, como descida de gradiente. Da mesma forma, a probabilidade complementar de encontrar a saída é simplesmente dado por

Tendo criado nossa notação, e , podemos usar entropia cruzada para obter uma medida de dissimilaridade entre e  :

A função de perda típica que se usa na regressão logística é calculada pela média de todas as entropias cruzadas na amostra. Por exemplo, suponha que tenhamos amostras com cada amostra indexada por . A função de perda é então dada por:

Onde com a função logística como antes.

A perda logística é às vezes chamada de perda de entropia cruzada. Também é conhecido como perda de log (log loss) (nesse caso, o rótulo binário é frequentemente indicado por {-1, + 1}).[2]

Referências

  1. Ian Goodfellow, Yoshua Bengio, and Aaron Courville (2016). Deep Learning. MIT Press. Online
  2. Murphy, Kevin (2012). Machine Learning: A Probabilistic Perspective. MIT. [S.l.: s.n.] ISBN 978-0262018029 

Ligações externas

[editar | editar código-fonte]