Independência condicional

Em teoria das probabilidades, dois eventos $R$ e $B$ são condicionalmente independentes se, dado um terceiro evento $Y$ , a ocorrência ou não-ocorrência de $R$ e a ocorrência ou não-ocorrência de $B$ são eventos independentes em sua distribuição de probabilidade condicional dado $Y$ . Em outras palavras, $R$ e $B$ são condicionalmente independentes dado $Y$ se, e somente se, sabendo que $Y$ ocorre, saber se $R$ ocorre não fornece nenhuma informação sobre a probabilidade de $B$ ocorrer, e saber se $B$ ocorre não fornece nenhuma informação sobre a probabilidade de $R$ ocorrer.

Definição formal

Na notação padrão da teoria de probabilidade, os eventos $R$ e $B$ são condicionalmente independentes dado um terceiro evento $Y$ se, e somente se,

\Pr(R\cap B\mid Y)=\Pr(R\mid Y)\Pr(B\mid Y)

,

ou equivalentemente,

\Pr(R\mid B\cap Y)=\Pr(R\mid Y)

.

Duas variáveis aleatórias $X$ e $Y$ são condicionalmente independentes dada uma terceira variável aleatória $Z$ se, e somente se, eles são independentes na sua distribuição de probabilidade condicional dado $Z$ . Isto é, $X$ e $Y$ são condicionalmente independentes dado $Z$ se, e somente se, dado qualquer valor de $Z$ , a distribuição de probabilidade de $X$ é a mesmo para todos os valores de $Y$ e a distribuição de probabilidade de $Y$ é a mesma para todos os valores de $X$ .

Dois eventos $R$ e $B$ são condicionalmente independentes dada uma σ-álgebra $\Sigma$ se

\Pr(R\cap B\mid \Sigma )=\Pr(R\mid \Sigma )\Pr(B\mid \Sigma )\ q.c.

onde $\Pr(A\mid \Sigma )$ denota a expectativa condicional da função indicadora do evento $A$ , $\chi _{A}$ , dada a sigma-álgebra $\Sigma$ . Isto é,

\Pr(A\mid \Sigma ):=\operatorname {E} [\chi _{A}\mid \Sigma ]

.

Duas variáveis aleatórias $X$ e $Y$ são condicionalmente independentes dada uma σ-álgebra $\Sigma$ se a equação acima vale para todo o $R$ em $\sigma (X)$ e $B$ em $\sigma (Y)$ .

Duas variáveis aleatórias $X$ e $Y$ são condicionalmente independentes dada uma variável aleatória $W$ se eles são independentes dada $\sigma (W)$ : a σ-álgebra gerada por $W$ . Isso é comumente escrito:

X\perp \!\!\!\perp Y\mid W

ou

X\perp Y\mid W

Isto se lê como " $X$ é independente de $Y$ , dado $W$ "; e o condicionamento aplica-se a declaração toda.

Se $W$ pressupõe um conjunto contável de valores, isto é equivalente a independência condicional de $X$ e $Y$ para os eventos da forma $[W=w]$ . A independência condicional de mais de dois eventos, ou de mais de duas variáveis aleatórias, é definida de forma análoga.

Exemplos

Suponha que $W$ é 0 com probabilidade 0,5 e 1 em caso contrário. Quando $W=0$ tome $X$ e $Y$ como independentes, cada uma tendo valor 0 com probabilidade de 0,99 e 1 em caso contrário. Quando $W=1$ , $X$ e $Y$ novamente estão independentes, mas desta vez eles tomam o valor 1 com probabilidade de 0,99. Então, $X\perp Y\mid W$ . Mas $X$ e $Y$ são dependentes, por que $\Pr(X=0)<\Pr(X=0\mid Y=0)$ . Isto por que $\Pr(X=0)=0,5$ , mas se $Y=0$ então é muito provável que $W=0$ e, assim, $X=0$ , então $\Pr(X=0\mid Y=0)>0,5$ .

Suponha $X\perp Y$ , cada um tomando os valores 0 e 1 com probabilidade 0,5. Seja $W$ o produto $X\times Y$ . Em seguida, quando $W=0$ , $\Pr(X=0)={\tfrac {2}{3}}$ , mas $\Pr(X=0\mid Y=0)={\tfrac {1}{2}}$ , então, $X\perp Y\mid W$ é falso.^{[nota 2]}

Sejam os dois eventos as probabilidades de pessoas A e B chegarem em casa a tempo para o jantar, e o terceiro evento é o fato de que uma tempestade de neve atingiu a cidade. Enquanto ambos A e B têm uma menor probabilidade de chegar em casa a tempo para o jantar, as probabilidades menores ainda serão independentes umas das outras. Isto é, o conhecimento de que A está atrasado, não diz se B irá se atrasar. Eles podem viver em bairros diferentes, viajar distâncias diferentes, e utilizar diferentes meios de transporte. No entanto, se você souber que eles vivem no mesmo bairro, usam o mesmo transporte, e trabalham no mesmo lugar, então, os dois eventos não são condicionalmente independentes.

A independência condicional depende da natureza do terceiro evento. Se você rolar dois dados, pode-se assumir que os dois dados se comportam de forma independente um do outro. Saber os resultados do primeiro dado não diz sobre os resultados do segundo dado, isto é, os dois dados são independentes. Se, no entanto, o resultado do primeiro dado é 3, e alguém informa sobre um terceiro evento - que a soma dos dois resultados é par, por exemplo - então esta informação adicional restringe as opções do segundo resultado para um número ímpar. Em outras palavras, dois eventos podem ser independente, mas não condicionalmente independentes.

A altura e o vocabulário não são independentes, mas elas são condicionalmente independentes, se você adicionar a idade.^[1]

Usos na inferência bayesiana

Seja $p$ a proporção de eleitores que vão votar "sim" em um referendo. Em uma pesquisa de opinião, escolhe-se $n$ eleitores aleatoriamente a partir da população. Para $i=1,\dots ,n$ , seja $X_{i}=1$ ou $0$ , correspondendo, respectivamente, a se o $i$ -ésimo eleitor escolhido vai ou não votar "sim".

Em uma abordagem frequentista de inferência estatística não se atribuiria qualquer distribuição de probabilidade para $p$ (a menos que as probabilidades possam ser, de alguma forma, interpretadas como frequências relativas de ocorrência de algum evento ou como proporções de alguma população) e pode-se dizer que $X_{1},\dots ,X_{n}$ são variáveis aleatórias independentes.

Por outro lado, em uma abordagem bayesiana de inferência estatística, atribuiria-se uma distribuição de probabilidade para $p$ , independentemente da não-existência de qualquer interpretação de "frequência", e interpretaria-se as probabilidades como graus de crença de que $p$ está em qualquer intervalo para o qual a probabilidade é atribuída. Nesse modelo, as variáveis aleatórias $X_{1},\dots ,X_{n}$ não são independentes, mas elas são condicionalmente independentes, dado o valor de $p$ . Em particular, se um grande número de $X$ s são observados sendo iguais a 1, tal observação implica uma alta probabilidade condicional de que $p$ está próximo de 1, e, portanto, uma alta probabilidade condicional que o próximo $X$ a ser observado será igual a 1.

Regras de independência condicional

Um conjunto de regras que regem as afirmações da independência condicional são derivados a partir da definição básica.^[2]^[3]

Uma vez que estas implicações se mantém para qualquer espaço de probabilidade, eles ainda irão se manter se considerar-se um sub-universo condicionando tudo em outra variável, digamos $K$ . Por exemplo, $X\perp \!\!\!\perp Y\Rightarrow Y\perp \!\!\!\perp X$ também significaria que $X\perp \!\!\!\perp Y\mid K\Rightarrow Y\perp \!\!\!\perp X\mid K$ .

As cinco regras abaixo foram denominadas "axiomas grafóides" por Pearl e Paz,^[4] porque elas se mantém em grafos, se $X\perp \!\!\!\perp A\mid B$ é interpretado significando que "todos os caminhos de $X$ para $A$ são interceptados pelo conjunto $B$ ".^[5]

Simetria

X\perp \!\!\!\perp Y\quad \Rightarrow \quad Y\perp \!\!\!\perp X

Decomposição

X\perp \!\!\!\perp A,B\quad \Rightarrow \quad {\text{ e }}{\begin{cases}X\perp \!\!\!\perp A\\X\perp \!\!\!\perp B\end{cases}}

Prova:

$p_{X,A,B}(x,a,b)=p_{X}(x)p_{A,B}(a,b)$ (significado de $X\perp \!\!\!\perp A,B$ )^{[nota 3]}
$\int _{B}\!p_{X,A,B}(x,a,b)=\int _{B}\!p_{X}(x)p_{A,B}(a,b)$ (ignora-se a variável $B$ integrando-a)
$p_{X,A}(x,a)=p_{X}(x)p_{A}(a)$ Uma prova similar mostra a independência de $X$ e $B$ .

União fraca

X\perp \!\!\!\perp A,B\quad \Rightarrow \quad {\text{ e }}{\begin{cases}X\perp \!\!\!\perp A\mid B\\X\perp \!\!\!\perp B\mid A\end{cases}}

Prova:

Por definição, $\Pr(X)=\Pr(X\mid A,B)$ .
Devido à propriedade de decomposição $X\perp \!\!\!\perp B$ , $\Pr(X)=\Pr(X\mid B)$ .
Combinando as duas igualdades tem-se $\Pr(X\mid B)=\Pr(X\mid A,B)$ , que estabelece $X\perp \!\!\!\perp A\mid B$ .

A segunda condição pode ser provada do mesmo modo.

Contração

\left.{\begin{aligned}X\perp \!\!\!\perp A\mid B\\X\perp \!\!\!\perp B\end{aligned}}\right\}{\text{ e }}\quad \Rightarrow \quad X\perp \!\!\!\perp A,B

Prova:

Esta propriedade pode ser comprovada por $\Pr(X\mid A,B)=\Pr(X\mid B)=\Pr(X)$ , cada igualdade do que é afirmado por $X\perp \!\!\!\perp A\mid B$ e $X\perp \!\!\!\perp B$ , respectivamente.

Contração-união-fraca-decomposição

Colocando os três acima juntos, tem-se que:

\left.{\begin{aligned}X\perp \!\!\!\perp A\mid B\\X\perp \!\!\!\perp B\end{aligned}}\right\}{\text{ e }}\quad \iff \quad X\perp \!\!\!\perp A,B\quad \Rightarrow \quad {\text{ e }}{\begin{cases}X\perp \!\!\!\perp A\mid B\\X\perp \!\!\!\perp B\\X\perp \!\!\!\perp B\mid A\\X\perp \!\!\!\perp A\\\end{cases}}

Intersecção

Para distribuições de probabilidade estritamente positivas,^[3] o seguinte também é verdadeiro:

\left.{\begin{aligned}X\perp \!\!\!\perp A\mid C,B\\X\perp \!\!\!\perp B\mid C,A\end{aligned}}\right\}{\text{ e }}\quad \Rightarrow \quad X\perp \!\!\!\perp B,A\mid C

Ver também

Teorema de De Finetti

Notas

↑ Para entender esse caso, é preciso entender que $\Pr(R\cap B\mid Y)$ é a probabilidade de uma intersecção de $R$ e $B$ (a área sombreada de roxo) na área $Y$ . Como na imagem a esquerda existem dois quadrados onde $R$ e $B$ se interseccionam dentro da área $Y$ , e a área $Y$ tem 12 quadrados, $\Pr(R\cap B\mid Y)={\frac {2}{12}}={\frac {1}{6}}$ . De modo similar, $\Pr(R\mid Y)={\frac {4}{12}}={\frac {1}{3}}$ e $\Pr(B\mid Y)={\frac {6}{12}}={\frac {1}{2}}$ .
↑ Os dois primeiros exemplos mostram que $X\perp Y$ nem implica nem é expressa por $X\perp Y\mid W$ .
↑ A vírgula, nesta fórmula e nas similares, pode ser lida como um "E".

Referências

↑ «Could someone explain conditional independence?». math.stackexchange.com. Consultado em 28 de novembro de 2016
↑ Dawid, A. P. (1979). «Conditional Independence in Statistical Theory». Journal of the Royal Statistical Society, Series B. 41 (1): 1–31. JSTOR 2984718. MR 0535541
↑ ^a ^b J Pearl, Causality: Models, Reasoning, and Inference, 2000, Cambridge University Press
↑ Pearl, Judea; Paz, Azaria (1985). Graphoids: A Graph-Based Logic for Reasoning About Relevance Relations. [S.l.: s.n.]
↑ Pearl, Judea (1988). Probabilistic reasoning in intelligent systems: networks of plausible inference. [S.l.]: Morgan Kaufmann

[n1-1] Para entender esse caso, é preciso entender que $\Pr(R\cap B\mid Y)$ é a probabilidade de uma intersecção de $R$ e $B$ (a área sombreada de roxo) na área $Y$ . Como na imagem a esquerda existem dois quadrados onde $R$ e $B$ se interseccionam dentro da área $Y$ , e a área $Y$ tem 12 quadrados, $\Pr(R\cap B\mid Y)={\frac {2}{12}}={\frac {1}{6}}$ . De modo similar, $\Pr(R\mid Y)={\frac {4}{12}}={\frac {1}{3}}$ e $\Pr(B\mid Y)={\frac {6}{12}}={\frac {1}{2}}$ .

[n2-2] Os dois primeiros exemplos mostram que $X\perp Y$ nem implica nem é expressa por $X\perp Y\mid W$ .

[n3-8] A vírgula, nesta fórmula e nas similares, pode ser lida como um "E".

[3] «Could someone explain conditional independence?». math.stackexchange.com. Consultado em 28 de novembro de 2016

[4] Dawid, A. P. (1979). «Conditional Independence in Statistical Theory». Journal of the Royal Statistical Society, Series B. 41 (1): 1–31. JSTOR 2984718. MR 0535541

[pearl:2000-5] J Pearl, Causality: Models, Reasoning, and Inference, 2000, Cambridge University Press

[pearl:paz85-6] Pearl, Judea; Paz, Azaria (1985). Graphoids: A Graph-Based Logic for Reasoning About Relevance Relations. [S.l.: s.n.]

[pearl:88-7] Pearl, Judea (1988). Probabilistic reasoning in intelligent systems: networks of plausible inference. [S.l.]: Morgan Kaufmann

[nota 1]

[nota 2]

[1]

[2]

[3]

[4]

[5]

[nota 3]