Medidas de dependência

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa

Uma medida de dependência é um parâmetro associado a um par de variáveis aleatórias que codifica em seu valor a intensidade da dependência estatística entre as variáveis. Similarmente uma medida de concordância é um parâmetro que, além de dar informação a respeito da dependência estatística, também é capaz de informar a respeito da correlação entre a direção de movimento dessas variáveis.

Critérios de Renyi[editar | editar código-fonte]

De maneira informal e grosseira, uma medida de dependência diz quanta informação se obtém a respeito de uma variável quando o valor de outra variável é conhecido. Exemplos de candidatos à medida de dependência são a covariância e a correlação (a rigor a correlação seria candidata a medida de concordância e seu módulo a medida de dependência). Ambas carregam alguma informação a respeito de quanto o conhecimento de uma variável informa sobre sobre o valor da outra. Entretanto há algumas ressalvas a esse respeito:

  • é possível obter variáveis que não são estatísticamente independentes e no entanto possuem correlação nula.
  • a correlação é invariante por mudanças lineares de parâmetros, mas não é invariante por mudanças monotônicas de variáveis gerais, ou seja, em geral  \rho(X,Y) \ne \rho(f(X), g(Y)). Isso significa que uma mera mudança de escala pode mudar sua conclusão a respeito da intensidade da dependência, o que é algo indesejável.
  • além disso em geral não é possível demonstrar que uma correlação máxima ( |\rho(X,Y)| = 1) implica uma dependência monotônica entre as variáveis X e Y.

Renyi estipulou um conjunto de exigências ou requisitos do que é razoável supor sobre boas medidas de dependência1 2 . Segundo essa lista de exigências, uma medidas de dependência \delta(X,Y) é um funcional da distribuição conjunta de qualquer par de variáveis X e Y com as seguintes propriedades:

  1. O funcional é simétrico na permutação de X e Y:  \delta\left(X,Y\right)  =   \delta(Y,X) ;
  2.  0 \le \delta\left(X,Y\right) \le  1 , com  \delta\left(X,Y\right)  =   0 se e somente se X e Y são estatisticamente independentes e  \delta\left(X,Y\right)  =   1 se e somente se Y é, quase certamente, uma função estritamente monotônica de X;
  3. se f(.) e g(.) são duas funções estritamente monotônicas de seus argumentos, então  \delta\left(X,Y\right)  =   \delta(f(X),g(Y)) ;
  4. no caso em que a distribuição conjunta de X e Y é uma distribuição normal, \delta(X,Y) deve ser uma função monotônica do módulo da correlação;
  5. se a sequencia (X_{n},Y_{n}) converge para (X,Y) então \delta(X_{n},Y_{n}) converge para \delta(X,Y).

Pode-se adaptar esses requisitos para medidas de concordância ajustando-se apenas os (2 - 4) da seguinte forma:

2.  -1 \le \delta\left(X,Y\right) \le  1 , com  \delta\left(X,Y\right)  =   0 se e somente se X e Y são estatisticamente independentes,  \delta\left(X,Y\right)  =   1 se e somente se Y é quase certamente uma função monotônica crescente de X e  \delta\left(X,Y\right)  =   -1 se e somente se Y é, quase certamente, uma função monotônica decrescente de X.
3. Se f(.) e g(.) são funções monotônicas sendo ambas crescentes ou ambas decrescentes, então  \delta\left(X,Y\right)  =   \delta(f(X),g(Y)) . Caso uma das funções seja decrescente e a outra crescente, então  \delta\left(X,Y\right)  =   -\delta(f(X),g(Y)) .
4. no caso em que a distribuição conjunta de X e Y é uma distribuição normal, \delta(X,Y) deve ser uma função monotônica crescente da correlação;


Relação com teoria de Cópulas[editar | editar código-fonte]

Diversas medidas de concordância e dependência podem ser facilmente relacionadas às respectivas cópulas. De fato, pode-se argumentar que toda boa medida de concordância ou dependência deve ser unicamente um funcional da cópula e ser independente das distribuições marginais3 .

Exemplos de medidas de dependência[editar | editar código-fonte]

Tau de Kendall[editar | editar código-fonte]

O tau de Kendall é definido como:

\tau = \frac{n_c-n_d}{\frac{1}{2}{n(n-1)}}

onde n_c é o número de pares concordantes, e n_d é o número de pares discordantes do conjunto de dados. Alternativamente,  \tau é a probabilidade de que dois pontos sorteados da distribuição conjunta sejam concordantes, ou seja:

\tau = \operatorname{Prob}\left[(X-X')(Y-Y')>0\right]

O Tau de Kendall pode ser escrito como um funcional da cópula:

\tau = 4 \int C(u,v) dC(u,v)

Rho de Spearman[editar | editar código-fonte]

O coeficiente de correlação rho de Spearman é definido como a correlação entre os postos de X e Y. Pode ser escrito como função da cópula da seguinte forma:

\rho = 12 \int uv dC(u,v) - 3

Informação Mútua[editar | editar código-fonte]

A informação mútua é definida da seguinte forma:

 I = \int dx dy P(x,y) \log \frac{P(x,y)}{P(x)P(y)} = S(X) + S(Y) - S(X,Y) = S(X) - S(X|Y) ,

onde S(.) é a entropia de Shannon. A informação mútua possui muitas interpretações do ponto de vista de teoria da informação, e pode ser compreendida como a diminuição na incerteza de uma das variáveis proporcionada pelo conhecimento da outra. A informação mútua pode ser estimada a partir de amostras de X e Y através do algoritmo de k-vizinhos de Kraskov-Stogbauer- Grassberger 4 .

Dependência nas caudas[editar | editar código-fonte]

Duas variáveis chamadas dependência na cauda superior e dependência na cauda inferior (upper and lower tail dependence) são usadas para caracterizar o aumento de dependência entre duas variáveis quando ocorrem eventos extremos. A dependência na cauda superior é definida como:

\lambda_{\mathrm{sup}} = \lim_{u\rightarrow 1} \operatorname{Prob}\left[X > F_{X}^{-1}(u) | Y > F_{Y}^{-1}(u) \right] ,

ou seja, a probabilidade de que se observe um valor de X maior no u-ésimo quantil dado que Y foi observado no u-ésimo quantil, no limite em que u se aproxima de 1. A dependência na cauda inferior é definida de forma similar.

Em função da cópula, as dependências na cauda são escritas como:

\lambda_{\mathrm{sup}} = \lim_{u\rightarrow 1} \frac{1 - 2u + C(u, u)}{1-u}
\lambda_{\mathrm{inf}} = \lim_{u\rightarrow 0} \frac{C(u, u)}{u}


Veja também[editar | editar código-fonte]

Referências

  1. Renyi, A.. (1959). "On measures of dependence." (em inglês). Acta. Math. Acad. Sci. Hungar. 10: 441-451.
  2. Schweizer, B.; Wolff, E. F.. (1981). "On nonparametric measures of dependence for random variables." (em inglês). The Annals of Statistics 9 (4): 879-885.
  3. Dimitris Nicoloutsopoulos. Parametric and Bayesian non-parametric estimation of copulas. [S.l.]: Tese de Ph.D. apresentada à universidade de Londres, 2005.
  4. Kraskov, A.; Stogbauer, H. and Grassberger, P.. (2004). "Estimating mutual information." (em inglês). Phys. Rev. E 69: 066138.
Wiki letter w.svg Este artigo é um esboço. Você pode ajudar a Wikipédia expandindo-o. Editor: considere marcar com um esboço mais específico.
Ícone de esboço Este artigo sobre matemática é um esboço. Você pode ajudar a Wikipédia expandindo-o.