Inferência bayesiana: diferenças entre revisões

Origem: Wikipédia, a enciclopédia livre.
Conteúdo apagado Conteúdo adicionado
Rfabbri (discussão | contribs)
→‎Pré-processamento: adicionado sobre regularização e renormalização
Rfabbri (discussão | contribs)
Linha 151: Linha 151:


=== Detector de SPAM ===
=== Detector de SPAM ===
Considere uma caixa de emails com 1000 mensagens, 200 delas spam.
Um modelador decide fazer um algoritmo bem simples para obter um resultado
inicial de referência para um detector de spam (h_0 = não spam, h_1 = spam).
Seleciona então, como evidência, as palavra: viagra (100, 0), valium (70, 20), coursera (2, 120), edX (1, 100), hoje(20, 250), marcadas com o número de ocorrências dentre os emails que são (spam, não spam).
Seguindo a MLE, observa a obtenção da [[função de verossimilhança]]:

:<math>p(h=spam? | e=palavras) \propto p(e | h) p(h)</math>

Equação onde o lado direito pode ser obtido através dos dados:
:<math>p(h_1) = 200/1000</math>
:<math>p(h_0) = 1 - p(h_1) = 0.8</math>
:<math>p(viagra | h_1) = 100/200 = 0.5</math>
:<math>p(viagra | h_0) = 0/800 = 0</math>
:<math>p(nao\;viagra | h_1) = 0.5</math>
:<math>p(nao\;viagra | h_0) = 1</math>
:<math>p(valium | h_1) = 70/200 = 0.35</math>
:<math>p(valium | h_0) = 20/800 = 0.025</math>
:<math>p(nao\;valium | h_1) = 0.65</math>
:<math>p(nao\;valium | h_0) = 0.975</math>
:o mesmo para as outras palavras.

Assim, em posse de um email em que <math>palavras = (valium, edX, hoje)</math>, e não com as outras palavras,
pode-se obter <math>h_a</math> (i.e. a hipótese mais verossimilhante)
através da comparação:
:<math>p(h_0|palavras) \lessgtr p(h_1|palavras)</math>.

Este mesmo modelo pode ser ampliado para utilizar mais palavras,
potencialmente todas as encontradas em algum conjunto de emails
e considerado o [[corte de Luhn]].
Para otimização, podem ser mantidas apenas as palavras mais relevantes,
i.e. em que <math>p(palavra | h_0) \nsim p(palavra | h_1)</math>.

Note que as palavras/evidências foram interpretadas como Variáveis aleatórias independentes e identicamente distribuídas|variáveis IID]],
o que é ''falso'' já que viagra e valium são correlacionadas, portando não são independentes,
e a distribuição das palavras não é idêntica, por exemplo.
Mesmo assim, o método é considerado sólido e informativo,
e a MLE com evidências IID é o [[#BI|BI]], um dos algoritmos
mais tradicionais na [[#|IB]]


=== Regressão linear (caso específico da IB) ===
=== Regressão linear (caso específico da IB) ===

Revisão das 05h11min de 20 de março de 2018

A inferência bayesiana (IB) consiste na avaliação de hipóteses pela máxima verossimilhança, uma decorrência imediata da fórmula de Bayes, e é fundamental para métodos computacionais relacionados à inteligência, mineração de dados, ou linguística, sejam eles métodos bayesianos de aprendizado de máquina (AM) ou não-bayesianos. A IB é uma extensão da estatística bayesiana e da inferência estatística para a inteligência computacional (IC), onde é sinônimo de aprendizado bayesiano (ou aprendizado de máquina bayesiano), e encontra aplicações em domínios igualmente genéricos, e.g. na biomedicina, computação em nuvem, pesquisa de algoritmos, criatividade computacional. Os resultados, em termos de classificação e regressão, por exemplo, são em muito casos satisfatórios e até difíceis de serem aprimorados, de propriedades convenientes e bem conhecidas, e constituem baselines.

As implementações básicas são adaptadas a muitos casos elaborados de IA, em detrimento do valor como baseline, mas muitas vezes com modelos já bem desenvolvidos e teoria estabelecida e profunda. Além da utilidade singular para implementações e lida com problemas reais (através da modelagem e da consideração dos dados), a IB é a simples aplicação do teorema de Bayes a hipóteses h e evidências e, i.e. do relacionamento entre as probabilidades condicionais e absolutas:

 

 

 

 

(1)


Teoria básica

Na IB, o aprendizado se dá, paradigmaticamente, por argmax_h p(h| e), ou seja, pela escolha da hipótese de máxima verossimilhança , consideradas as evidências (e.g. os dados) e as hipóteses de interesse. Encontrar a hipótese que satisfaz a Equação (1) é uma técnica chamada MLE (maximum likelyhood estimation), i.e. estimação/inferência/aprendizado por maximização da verossimilhança (likelihood).

MLE e MAP

Embora a técnica fundamental da IB seja a MLE, a outra condicional entre e e h também é usada para inferëncia:

Esta é a MAP (maximum a priori probability), i.e. probabilidade anterior máxima, obtida sem exploração do teorema de Bayes. Faz parte da teoria básica da IB como paradigma da inferência (ou aprendizado de máquina) frequentista e pelo contraste com a MLE. A MAP pode até mesmo ser chamada de IB por simplicidade do discurso e consideração dos fundamentos. Além disso, vantagens da MLE são ponderáveis com a simplicidade da MAP, veja a nota sobre Occam.

Interpretação fundamental

A associação probabilítica de uma (ou mais) hipótese(s), isolada(s), aos dados é a inferência frequentista (veja MAP). Já a consideração da distribuição de probabilidade das hipóteses, condicionadas às evidências (e.g. dados), em um espaço de hipóteses de interesse, possibilita uma escolha fundamentada e eficiente de uma (ou mais) hipótese(s), e é o procedimento adotado na MLE de forma bastante direta, e é o aspecto fundamental da IB que a torna relevante para a teoria e prática de reconhecimento de padrões e da teoria da decisão, e canônica na consideração e construção de sistemas de inteligência computacional, mesmo de computação natural em que métodos de bioinspirados são contrastados com a IB.

Nomenclatura mínima

Na Equação (1), p(h) é chamada probabilidade anterior (ou a priori), p(e | h) é chamada condicional anterior (ou a priori), e p(h | e) de condicional posterior (ou a posteriori), probabilidade posterior, ou verossimilhança. Seu cálculo se dá através da função de verossimilhança, e a MLE é, essencialmente, uma maximização de verossimilhança. Contraste/conflito com a função de verossimilhança da MLE é o critério principal para considerar não-bayesiano um modelo de inferência. Note que o nome MAP, máxima probabilidade anterior, conflita com o nome de p(h), probabilidade anterior, pois a MAP maximiza p(x|h) e não p(h). Veja também distribuições marginais e os artigos de probabilidade e estatística.

Probabilidade VS verossimilhança

A rigor, na IB, uma probabilidade quantifica o quão plausível é uma evidência futura (e.g. um evento futuro), enquanto uma verossimilhança quantifica o quão plausível é uma hipótese ao serem consideradas todas as evidências ocorridas. Em geral, a verossimilhança fornece uma quantidade para ser associada à crença de que a hipótese é verdadeira.

Evento VS evidência

Na IB, uma evidência é um evento utilizado como conhecimento anterior/prévio, para probabilidades e condicionais anteriores, como as da Equação ().

Frequentista VS bayesiano

A utilização da fórmula de Bayes insere suposições sobre o modelo na estatística de aprendizado, implica em abordagem bayesiana e oposta por sua não utilização à abordagem frequentista. Por extensão, o adjetivo frequentista designa ênfase em contagens, simplismo e até fragilidade dos estimadores; o adjetivo bayesiano designa ênfase na fórmula de Bayes e estimadores consistentes. Diz-se que algo (e.g. uma pessoa, teoria, modelo, resultado) é bayesiano se contempla abordagens bayesianas, em especial decorrências imediatas da fórmula de Bayes, que relaciona probabilidades condicionais.

Por extensão, a utilização da MAP pode ser considerada o paradigma frequentista, que desconsidera o conhecimento a priori que está implícito no sistema ao obter uma estatística de referência (e.g. p-value). Já a MLE explicita o uso da fórmula de Bayes de forma simples e é o paradigma básico da AM bayesiana (junto ao Bayes ingênuo quando as evidências são i.i.d.). Mas a conceitualizaçao é mais profunda: um (método, pesquisador, raciocício, etc) bayesiano idealmente considera todas as hipóteses, e na prática considera isso no modelo explicitamente, dando pesos para as hipóteses conforme mais prováveis dado conhecimento prévio (dados, conhecimento especialista, etc). Para a consideração de através de conceitos imprecisos (e.g. tamanho), são úteis recursos da Inteligência Computacional, especialmente de lógica difusa (veja nota sobre IC).

Desenvolvimento da teoria através de exemplos

Há diversos algoritmos para IB, e as propriedades destes sistemas, em geral dos mais básicos, são fundamentais para a inteligência computacional e o aprendizado de máquina. Ambas a derivação de modelos e a observação epistomógica serão aqui exemplificados através de exemplos.

Regra de Cromwell

Note que . Também . Ou seja, convicções ou hipóteses rígidas/fortes são insensíveis à evidência.

Falácia do apostador

Moeda frequentista e bayesiana

Uniformiadde de verossimilhança em contexto sem ruído

Considere uma evidência e idealizada, e.g. valores infinitamente precisos. Considere também hipóteses que descrevem fielmente e, e.g. , onde é algum parâmetro ou dado utilizado pela hipótese para explicar ou predizer . Segue que:

Onde é o conjunto das hipóteses que satisfazem e perfeitamente. Ou seja, em um contexto sem ruído, cujas hipóteses representam fielmente as evidências, e em que as hipóteses são igualmente prováveis, a verossimilhança das hipóteses é constante e inversamente proporcional ao espaço hipóteses cabíveis. Além disso, note que se é constante/uniforme, , ou seja, se as hipóteses são igualmente prováveis, MLE e MAP se equivalem, e a abordagem bayesiana encontra a frequentista. Dito de outra forma, a MAP é o caso específico da MLE em que as hipóteses são igualmente prováveis (i.e. em que constante). A especificação de por critérios imprecisos encontra suporte e paralelo da lógica difusa (fuzzy), veja a nota sobre IC.

Aplicação para regressão ou classificação em contexto ruidoso

Detector de SPAM

Considere uma caixa de emails com 1000 mensagens, 200 delas spam. Um modelador decide fazer um algoritmo bem simples para obter um resultado inicial de referência para um detector de spam (h_0 = não spam, h_1 = spam). Seleciona então, como evidência, as palavra: viagra (100, 0), valium (70, 20), coursera (2, 120), edX (1, 100), hoje(20, 250), marcadas com o número de ocorrências dentre os emails que são (spam, não spam). Seguindo a MLE, observa a obtenção da função de verossimilhança:

Equação onde o lado direito pode ser obtido através dos dados:

o mesmo para as outras palavras.

Assim, em posse de um email em que , e não com as outras palavras, pode-se obter (i.e. a hipótese mais verossimilhante) através da comparação:

.

Este mesmo modelo pode ser ampliado para utilizar mais palavras, potencialmente todas as encontradas em algum conjunto de emails e considerado o corte de Luhn. Para otimização, podem ser mantidas apenas as palavras mais relevantes, i.e. em que .

Note que as palavras/evidências foram interpretadas como Variáveis aleatórias independentes e identicamente distribuídas|variáveis IID]], o que é falso já que viagra e valium são correlacionadas, portando não são independentes, e a distribuição das palavras não é idêntica, por exemplo. Mesmo assim, o método é considerado sólido e informativo, e a MLE com evidências IID é o BI, um dos algoritmos mais tradicionais na IB

Regressão linear (caso específico da IB)

Métodos de IB (derivados da teoria básica)

Bayes ingênuo (BI, Naive Bayes)

Outros métodos de IB

Aplicação e avaliação na IB

Occam: BI como baseline, suficiência frequentista, regularização

Um reflexo imediado da navalha de Occam: o BI é um baseline, com resultados informativos sobre o contexto em que se aplica, e propriedades convenientes. Assim, ao BI (ou outra MLE simples) é dada preferência caso não haja justificativa para métodos mais elaborados ou para simplismos, como o discurso frequentista e o MAP. Em caso de necessidade, pode-se escolher um modelo de IB mais genérico (i.e. uma MLE que não o BI), sob o risco incorrer em análises e inferências menos informativas, bem comportadas, e menos relevância e embasamento teóricos. A IB constitui potencialmente o baseline principal para avaliar qualquer algoritmo de aprendizado de máquina, principalmente os relacionados à IC, à CN, e à CM, devido às não linearidades e comportamentos complexos, difíceis de serem capturados algebrica ou mesmo analiticamente. A não utilização de ao menos um modelo simples de IB para avaliação de um sistema que pode ser avaliado desta forma suscita questionamento quanto à relevância ou mesmo a validade dos resultados. Note que o BI é capaz de regressão linear, classificação, rankeamento, aprendizado online ou por reforço em geral, aprendizado não supervisionado (e.g. clusterização), e é portanto um método generalista e suficiente para um espectro largo de métodos de aprendizado de IC, estatisticamente ótimos em diversos contextos e sentidos. Além disso, Abraham Wald formulou uma justificação embasada na teoria estatística da decisão (veja teoria da decisão) para o uso da IB que a torna a técnica central na inferência frequentista para procedimentos tais como estimação de parâmetros, teste de hipótese, e o cálculo de intervalos de confiança.

Veja também a nota sobre terminologia no artigo de probabilidade, também calcada na simplicidade. O mal emprego da tolerância linguística (e.g. terminológica) é o principal responsável pela dificuldade dos textos sobre IC e IB.

Pré-processamento

Resultados informativos de IB são obtidos muitas vezes com o auxílio de pré-processamento das evidências, e.g. redução de dimensionalidade via PCA, lida com dados faltantes, detecção de outliers. Estes procedimentos constituem aspecto relevante da IB aplicada, e devem ser considerados cuidadosamente na descrição e avaliação.

Acréscimos à terminologia básica

Estatísticas para avaliação da IB

Compreendida função de baseline que a IB possui para a IC e o AM em geral, salta nítido que o uso de um conjunto padrão de estatísticas para descrever os resultados (incluindo o modelo) potencializa a IB na IC e para a análise de dados em geral, e.g. precisão, acurácia, cobertura, falsos negativos, etc. alpha, p-value, regiao crítica, etc. Vocabulário advindo do reconhecimento de padrões.

Testes estatísticos

hipótese nula, significância, região crítica, intervalo de confiança, etc etc

Método de Neyman-Pearson para testes estatísticos. Usar para tratar de falsos e verdadeiros negativos e positivos., tabela de confusão, e medidas relacionadas. nivel de significância e intervalo de confiança

Inferência e predição bayesianas

É útil também, na IB, a diferenciação entre inferência e predição baysianas. A inferência é a obtenção do modelo que considera dos dados, i.e. de ; e predição é sua utilização para obtenção de uma hipótese considerados os eventos ou um evento específico , i.e. a obtenção de .

Assim, em um aprendizado por reforço ou online, há inferência com novos dados e resultados, mas para muitos casos de classificação e regressão pode ser realizada somente uma inferência (i.e. sem que novos dados e resultados influenciem o resultado das predições). Predição neste caso é genérico, e.g. classificação e regressão. O modelo é calibrado e aplicado através da operação bayesiana (i.e. da aplicação da fórmula de bayes), ou seja, tanto a inferência quando a atualização bayesiana são a simples aplicação da Equação ().

Em todo caso, na IB o contexto deve explicitar se o termo inferência se refere à técnica de inferência bayesiana (IB) como um todo, ou à obtenção da função de verossimilhança e isolando o ato de predição ou cálculo ou estimação de variável.

Comparação de modelos

Pode-se aplicar outros métodos de IC para avaliação do resultado de um IB, embora o contrário seja mais usual. Desta forma, embora seja mais canônico o uso de um BI para avaliação de um algoritmo genético, a avaliação de uma MLE pode ser auxiliada por uma otimização por colônia de formigas. A comparação entre métodos igualmente bayesianos, ou também estatísticos, ou de aprendizado por regras, pode assistir na avaliação de uma IB.

Critérios previamente estabelecidos

O contexto a priori é tão relevante para a correta consideração dos resultados que deve-se se escolher a significância antes de analisar os resultados ou até mesmo de se modelar e aplicar a rotina bayesiana para obter o resultado (e.g. um p-value). A satisfação de critérios iniciais é uma técnica priorizada na avaliação de uma IB por questões consensuais, mas com descrições diversas, em torno de suposições implícitas em um teste estatístico (e.g. o pensamento desejoso pode influenciar no estabelecimento de um intervalo de confiança adequado se escolhido depois de realizado o teste; a consideração prévia de resultados possíveis através dos critérios iniciais favorece a modelagem apropriada do espaço de hipóteses; semântica estatística de estimador porterior (MLE) e anterior (MAP)).

Nota de cuidado sobre distribuições de cauda longa

Ao considerar hipóteses e evidências distribuídas com cauda longa, e.g. respeitando leis de potência ou exponenciais, é importante considerar testes e estatísticas robustas, e.g. o teste de Kolmogorov-Smirnov e a estatística (derivada do teste de KS), ou teoria e software especializados. Por exemplo, muitas redes complexas foram consideradas livres de escala (i.e. apresentam uma lei de potência na distribuição de conectividade e.g. grau ou força) em journals internacionais, por pesquisadores experiêntes, mas depois de testes mais cuidadosos com os dados, estas redes foram reclassificadas como apresentando outras distribuições de conectividade (e.g. exponencial).[1][2]

Modelo de software para suporte à IB

Há diversos software para aplicação da IB. Uma questão comum e honesta é: quão fiel são estas rotinas computacionais aos modelos matemáticos? Neste contexto é útil um conjunto bem específico de rotinas, talvez somente MLE, MAP, BI, e variantes mais imediatas estabelecidas como referência, com as estatísticas para avaliação dos resultados. Para derivar baselines ou obter estatísticas informativas, idealmente são então usadas estas rotinas exatamente como implementadas, ou aproveitados os modelos para obter derivados e avaliá-los. A utilização é assim pouco previsível, e são convenientes implementações nos paradigmas:

para dar suporte ao usuário nos diversos casos possíveis. Note que as implementações propostas são muitas embora a organização tenha colapsado em poucos conceitos. Por exemplo, como são as implementações padrão (e.g. mais simples) para as tarefas de classificação, regressão, rankeamento? Há algum modelo que possa ser considerado padrão não supervisionado na IB (e.g. para clusterização)? Qual a IB mais simples capaz de aprendizado semi-supervisionado? Constitui um baseline reconhecido?

Programação estruturada e orientada ao objeto para a IB

Observada a simplicidade da Equação (1), salta nítido que a IB pode ser realizada por programação estruturada (PE), inclusive não procedural (i.e. sem o uso de funções para utilizar sequências de instruções como uma única instrução). Ainda dentro da PE, com o uso de funções a IB pode ser aplicada com facilidade a diferentes conjuntos de dados e parametrizações que expressam crenças. Já a orientação ao objeto (POO) é conveniente para expressar modelos de IB, a serem treinados ou já treinados, capazes de realizar predições/estimações condicionadas a evidências arbitrárias.

Regularização e renormalização

Regularização, embora acrescente informação ao modelo, simplifica pelas restrições em que implica (e.g. vínculos), resultando em poucos graus de liberdade, uma simplicidade desejada. O BI é obtido a partir da MLE pela suposição iid, uma regularização. A regularização na MLE se dá pela utilização das probabilidades encontradas nos dados para escolha da hipótese mais provável(?).

Renormalização

IB e CN na IC

Como sugere este artigo como um todo e algumas partes com ênfase, em geral, modelos simples de IB (e.g. BI) são priorizados na IC por: serem bem conhecidas/estudadas, possuírem propriedades estatísticas de interpretação útil, simples, e estatisticamente ótimas por critérios objetivos e relevantes. Elas constituem baselines para outros técnicas de IC, sejam elas e.g. bayesianas ou de computação natural (CN).

Há dois aspectos da IB diretamente ligados à exploração de imprecisão tão característica da IC: 1) a delimitação das hipóteses de interesse se dá muitas vezes por critérios semanticamente imprecisos (melhor, largo, resistente, etc), há portanto uma interface com a lógica difusa nesta definição de necessária para a Equação () e crucial os melhores resultados da MLE em comparação com a MAP. 2) Basta varrer o espaço das hipóteses para achar da Equanção (). Isso não é prático em muitas situações e.g. em que o espaço é muito amplo e a álgebra insuficiente. Constitui uma possibilidade de aplicação de computação natural na IC a varredura do espaço de hipóteses condicionadas aos eventos para encontrar a máxima verossimilhança, i.e. para encontrar ou a melhor aproximação possível de .

Além disso, BI é um método de aprendizado com características desejáveis, mas que degenera as evidência e as hipóteses: as variáveis de entrada não são sempre perfeitamente IID, como assume o BI, e o sistema pode estar considerando, em verdade valores complexos calculados a partir da entrada. Na IC, métodos de CN são em geral utilizados para lidar com espaços de evidências e hipóteses de forma mais completa.

Considerações ainda não organizadas

O MLE aplica de forma estatisticamente ótima, estes dois critérios: 1) se a evidência não corresponde à hipótese, a hipótese deve ser rejeitada; 2) se uma hipótese é extremamente improvável a priori, deve-se também rejeitá-la, mesmo que explique a evidência.

Sejam hipóteses sobre uma imagem:

  • É um menino.
  • É um gato.
  • É um cachorro.

Então considere duas evidências:

  • Há uma outra imagem de um gato, evidência que se opõe à hipótese do menino.
  • Há ainda outra imagem de um cão, evidência que se opõe à hipótese do menino.

Assumida homogeneidade, neste caso rejeita-se a hipótese do menino. Podem ser utilizadas novas evidências e crenças para auxiliar na escolha entre gato e cachorro, inclusive arbitrárias e imprecisas se apropriados para a aplicação, via lógica difusa para inteligência computacional, e.g. às imagens são atribuídas funções de pertencimento aos conjuntos difusos gato e cachorro, e, paralelamente, distribuições de probabilidade arbitrárias e imprecisas, que refletem o julgamento do humano que está modelando a IB, podem ser utilizadas para a probabilidade anterior p(h) e a condicional anterior p(e|h). Ainda, p(h) pode ser obtida por outros métodos de IC, e.g. de computação natural.

O ponto crítico sobre a IB é que ela fornece/apresenta uma maneira fundamental de combinar evidências e crenças (anteriores), através da aplicação da regra/fórmula/teoria de Bayes.

A regra de Bayes pode ser aplicada de forma iterativa e recursiva: depois de observar as evidências, a verossimilhança pode então ser tratada como uma probabilidade anterior, e uma nova verossimilhança calculada considerando mais evidência. Isto permite à princípios Bayesianos serem aplicado a vários tipos de evidência, e em várias técnicas de IC e AM, e.g. um aprendizado online, por reforço, pode ser realizado por IB considerando sempre e somente as últimas mil evidências, ou um etiquetador morfossintático pode ser modelado como uma IB e distribuído de forma que a classificação das palavras (em substantivos, adjetivos, pronomes, etc) seja sempre a mesma. A atualização de um modelo de IB perante aplicação/uso é a atualização bayesiana.

Veja também

Referências