Probabilidade a posteriori

Em estatística bayesiana, a probabilidade a posteriori de um evento aleatório ou uma proposição incerta é a probabilidade condicionada que é atribuída depois que evidências ou planos de fundo relevantes são levados em conta. De forma semelhante, a distribuição de probabilidade a posteriori é a distribuição de probabilidade de uma quantidade incerta, tratada como uma variável aleatória, condicional sobre a evidência obtida de um experimento ou survey. Neste contexto, "a posteriori" significa depois de levar em conta evidências relevantes relativas ao caso particular sendo examinado.^[1]

Definição[editar | editar código-fonte]

A probabilidade a posteriori é a probabilidade dos parâmetros $\theta$ dada a evidência $X$ : $p(\theta |X)$ .

Contrasta com a função de verossimilhança, que é a probabilidade da evidência dados os parâmetros: $p(X|\theta )$ .

Estes dois conceitos se relacionam como descrito abaixo.

Considere que temos uma crença a priori de que a função distribuição de probabilidade é $p(\theta )$ e as observações são $x$ com a verossimilhança $p(x|\theta )$ . Então, a probabilidade a posteriori é definida como:

$p(\theta |x)={\frac {p(x|\theta )p(\theta )}{p(x)}}.$

A probabilidade a posteriori pode ser escrita de forma memorizável como:

${\text{Probabilidade a posteriori}}\propto {\text{Verossimilhanca}}\times {\text{Probabilidade a priori}}.$ ^[2]

Exemplo[editar | editar código-fonte]

Suponha que há uma escola mista e que 60% de seus alunos são meninos e 40% de seus alunos são meninas. As meninas usam calças ou saias em números iguais. Todos os meninos usam calças. Um observador vê um estudante (aleatório) a distância. Tudo o que o observador pode ver é que este estudante está vestindo calças. Qual é a probabilidade de que este estudante seja uma menina? A resposta correta pode ser computada usando o teorema de Bayes.

O evento $G$ é aquele em que o estudante observado é uma menina e o evento $T$ é aquele em que o estudante observado está vestindo calças. Para computar a probabilidade a posteriori $P(G|T)$ , precisamos primeiramente saber:

$P(G)$ , que é a probabilidade de que o estudante seja uma menina, independentemente de qualquer outra informação. Já que o observador vê um estudante aleatório, o que quer dizer que todos os estudantes têm a mesma probabilidade de ser observados, e a porcentagem de meninas entre os estudantes é $40\%$ , esta probabilidade é igual a $0,4$ .
$P(B)$ , que é a probabilidade de que o estudante não seja uma menina, isto é, um menino, independentemente de qualquer outra informação ( $B$ é o evento complementar a $G$ ). Esta é igual a $60\%$ ou $0,6$ .
$P(T|G)$ , que é a probabilidade de que o estudante esteja vestindo calças, sendo o estudante uma menina. Como elas têm a mesma probabilidade de vestir saias ou calças, esta é igual $0,5$ .
$P(T|B)$ , que é a probabilidade de que o estudante esteja vestindo calças, sendo o estudante um menino. Esta é igual a $1$ .
$P(T)$ , que é a probabilidade de que um estudante (aleatoriamente selecionado) esteja vestindo calças, independentemente de qualquer outra informação. Já que $P(T)=P(T|G)P(G)+P(T|B)P(B)$ (pela lei da probabilidade total), esta é igual a $P(T)=0,5\times 0,4+1\times 0,6=0,8$ .

Dadas todas estas informações, a probabilidade a posteriori do observador ter visto uma menina, dado que o estudante observado estava vestindo calças, pode ser computada ao substituir estes valores na fórmula:

$P(G|T)={\frac {P(T|G)P(G)}{P(T)}}={\frac {0,5\times 0,4}{0,8}}=0,25.$

A intuição deste resultado é que, a cada 100 estudantes (60 meninos e 40 meninas), se observarmos calças, o estudante é um de 80 estudantes que vestem calças (60 meninos e 20 meninas). Já que $20/80=1/4$ dos estudantes que vestem calças são meninas, a probabilidade de que o estudante vestindo calças seja uma menina é igual $1/4$ .^[3]

Cálculo[editar | editar código-fonte]

A distribuição de probabilidade a posteriori de uma variável aleatória dado o valor de outra pode ser calculada com o teorema de Bayes, ao multiplicar a distribuição de probabilidade a priori pela função de verossimilhança e, em seguida, dividir pela constante de normalização, como segue:

$f_{X\mid Y=y}(x)={f_{X}(x)L_{X\mid Y=y}(x) \over {\int _{-\infty }^{\infty }f_{X}(u)L_{X\mid Y=y}(u)du}},$

que dá a função densidade de probabilidade a posteriori para um variável aleatória $X$ , levando em conta os dados $Y=y$ , em que:

$f_{X}(x)$ é a densidade a priori de $X$ ,
$L_{X\mid Y=y}(x)=f_{Y\mid X=x}(y)$ é a função de verossimilhança como uma função de $x$ ,
$\int _{-\infty }^{\infty }f_{X}(u)L_{X\mid Y=y}(u)du$ é a constante de normalização e
$f_{X\mid Y=y}(x)$ é a densidade a posteriori de $X$ , levando em conta os dados $Y=y$ .^[4]

Intervalo de credibilidade[editar | editar código-fonte]

A probabilidade a posteriori é a probabilidade condicional condicionada sobre dados aleatoriamente observados, logo, é uma variável aleatória. Sendo uma variável aleatória, é importante resumir sua quantidade de incerteza. Uma forma de atingir este objetivo é providenciar um intervalo de credibilidade da probabilidade a posteriori.^[5]

Classificação[editar | editar código-fonte]

Em classificação, as probabilidades a posteriori refletem a incerteza de inserir uma observação em uma classe particular. Enquanto métodos de classificação estatística por definição geram probabilidades a posteriori, as máquinas aprendizes usualmente oferecem valores de associação que não incluem qualquer confiança probabilística. É desejável transformar ou reescalonar valores de associação em probabilidades de associação de classe, já que são comparáveis e adicionalmente mais facilmente aplicáveis para o pós-processamento.^[6]

Ver também[editar | editar código-fonte]

Referências[editar | editar código-fonte]

↑ Hayes, Andy (2017). Bayes Theorem: A Quick-start Beginner's Guide (em inglês). North Charleston, South Carolina: CreateSpace Independent Publishing Platform. ISBN 9781542493598. Consultado em 5 de março de 2018
↑ Lee, Peter M. (2004). Bayesian statistics: an introduction 3rd ed. London: Arnold. ISBN 9780340814055. OCLC 54888001. Consultado em 5 de março de 2018
↑ Hartshorn, Scott (2016). Bayes Theorem Examples (em inglês). Morrisville, Carolina do Norte, EUA: Lulu Press, Inc. ISBN 9781329854123. Consultado em 5 de março de 2018
↑ Ehlers, Ricardo; Justiniano, Paulo (2003). «Teorema de Bayes». Laboratório de Estatística e Geoinformação da Universidade Federal do Paraná. Consultado em 5 de março de 2018
↑ Swinburne, Richard (2005). Bayes's Theorem (em inglês). Oxford: Oxford University Press/British Academy. ISBN 9780197263419. Consultado em 5 de março de 2018
↑ Bishop, Christopher M. (2006). Pattern recognition and machine learning. New York: Springer. ISBN 9780387310732. OCLC 71008143. Consultado em 5 de março de 2018

[1] Hayes, Andy (2017). Bayes Theorem: A Quick-start Beginner's Guide (em inglês). North Charleston, South Carolina: CreateSpace Independent Publishing Platform. ISBN 9781542493598. Consultado em 5 de março de 2018

[2] Lee, Peter M. (2004). Bayesian statistics: an introduction 3rd ed. London: Arnold. ISBN 9780340814055. OCLC 54888001. Consultado em 5 de março de 2018

[3] Hartshorn, Scott (2016). Bayes Theorem Examples (em inglês). Morrisville, Carolina do Norte, EUA: Lulu Press, Inc. ISBN 9781329854123. Consultado em 5 de março de 2018

[4] Ehlers, Ricardo; Justiniano, Paulo (2003). «Teorema de Bayes». Laboratório de Estatística e Geoinformação da Universidade Federal do Paraná. Consultado em 5 de março de 2018

[5] Swinburne, Richard (2005). Bayes's Theorem (em inglês). Oxford: Oxford University Press/British Academy. ISBN 9780197263419. Consultado em 5 de março de 2018

[6] Bishop, Christopher M. (2006). Pattern recognition and machine learning. New York: Springer. ISBN 9780387310732. OCLC 71008143. Consultado em 5 de março de 2018

[1]

[2]

[3]

[4]

[5]

[6]