Covariância

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa
NoFonti.svg
Este artigo ou se(c)ção cita uma ou mais fontes fiáveis e independentes, mas ela(s) não cobre(m) todo o texto (desde Dezembro de 2010).
Por favor, melhore este artigo providenciando mais fontes fiáveis e independentes e inserindo-as em notas de rodapé ou no corpo do texto, conforme o livro de estilo.
Encontre fontes: Googlenotícias, livros, acadêmicoScirusBing. Veja como referenciar e citar as fontes.

Em teoria da probabilidade e na estatística, a covariância, ou variância conjunta, é uma medida do grau de interdependência (ou inter-relação) numérica entre duas variáveis aleatórias1 . Assim, variáveis independentes têm covariância zero.

A covariância é por vezes chamada de medida de dependência linear entre as duas variáveis aleatórias.

Definição formal[editar | editar código-fonte]

A covariância ou variância conjunta é um momento conjunto de primeira ordem das variáveis aleatórias X e Y, centrados nas respectivas médias. É a média do grau de interdependência ou inter-relação numérica entre elas1 .

Se a variável for discreta, a covariância pode ser calculada de duas formas:

Prova matemática[editar | editar código-fonte]

Em teoria da probabilidade e na estatística, a covariância entre duas variáveis aleatórias reais X e Y, com valores esperados \operatorname{E}(X)=\mu_{X} e \operatorname{E}(Y)=\mu_{Y} é definida como uma medida de como duas variáveis variam conjuntamente:

\operatorname{cov}(X, Y) = \operatorname{E}[(X - \mu_{X}) (Y - \mu_{Y})], \,

onde E() é o operador do valor esperado2 . Desenvolvendo a expressão para a Covariância, temos:

\operatorname{cov}(X, Y) = \operatorname{E}[(X - \mu_{X}) (Y - \mu_{Y})]


\operatorname{cov}(X, Y) = \operatorname{E}[(X - \operatorname{E}(X)) (Y - \operatorname{E}(Y)]


\operatorname{cov}(X, Y) = \operatorname{E}[XY - X\operatorname{E}(Y) - Y\operatorname{E}(X) + \operatorname{E}(X)\operatorname{E}(Y)]


Usando a propriedade de que a Esperança (Valor esperado) de uma variável aleátória X qualquer é um operador linear, determinamos que a Esperança de uma soma é a soma das Esperanças:


\operatorname{cov}(X, Y) = \operatorname{E}(XY) - \operatorname{E}[X\operatorname{E}(Y)] - \operatorname{E}[Y\operatorname{E}(X)] +  \operatorname{E}[\operatorname{E}(X)\operatorname{E}(Y)] \


Novamente utilizando da linearidade da Esperança, temos que a Esperança de uma constante K qualquer multiplicada pela variável X é equivalente à constante K multiplicada pela Esperança da variável X. Sendo a Esperança de X um número qualquer definido no conjunto dos Números Reais, podemos fatorá-la em dois fatores:


\operatorname{cov}(X, Y) = \operatorname{E}(XY) - \operatorname{E}(Y)\operatorname{E}(X) - \operatorname{E}(X)\operatorname{E}(Y) + \operatorname{E}(X)\operatorname{E}(Y)


Isto equivale à seguinte fórmula, a qual é geralmente usada para fazer os cálculos2 :

\operatorname{cov}(X, Y) = \operatorname{E}(X Y) - \operatorname{E}(X) \operatorname{E}(Y)\,

Se X e Y são independentes, então a sua covariância é zero. Isto acontece porque sob independência2 :

E(XY)=\operatorname{E}(X)\operatorname{E}(Y)=\mu_{X} \mu_{Y}.

Assim:

\operatorname{cov}(X, Y) = \operatorname{E}(X Y) - \operatorname{E}(X) \operatorname{E}(Y)\,
\operatorname{cov}(X, Y) = \operatorname{E}(X) \operatorname{E}(Y) - \operatorname{E}(X) \operatorname{E}(Y)
\operatorname{cov}(X, Y) = 0

O inverso, no entanto, não é verdadeiro: é possível que X e Y não sejam independentes e terem no entanto covariância zero2 . Variáveis aleatórias cuja covariância é zero são chamadas descorrelacionadas.

Propriedades da Covariância[editar | editar código-fonte]

Se X e Y são variáveis aleatórias de valor real e a, b, c e d constantes ("constante", neste contexto significa não aleatória), então os seguintes factos são uma consequência da definição da covariância2 :

\operatorname{cov}(X, X) = \operatorname{var}(X)\,
\operatorname{cov}(X, Y) = \operatorname{cov}(Y, X)\,
\operatorname{cov}(aX + b, cY + d) = a\ c\ \operatorname{cov}(X, Y)\,
\operatorname{cov}\left(\sum_i{X_i}, \sum_j{Y_j}\right) =    \sum_i{\sum_j{\operatorname{cov}\left(X_i, Y_j\right)}}\,

Para variáveis aleatórias em vetores coluna X e Y com respectivos valores esperados μX e μY, e n e m de componentes escalares respectivamente, a covariância é definida como matriz n×m

\operatorname{cov}(X, Y) = \operatorname{E}((X-\mu^{x})(Y-\mu_Y)^\top).\,

Para variáveis aleatórias em vetor, cov(X, Y) e cov(Y, X) são a transposta de cada um.

Relação entre variância e covariância[editar | editar código-fonte]

A covariância entre duas variáveis pode ser obtida de dados de variância1 . Para variáveis aleatórias X e Y, sejam:

  • \operatorname{var}(X)\, é a variância populacional de X
  • \operatorname{var}(Y)\, é a variância populacional de Y
  • \operatorname{var}(X+Y)\, é a variância populacional de uma variável obtida a partir da soma simples das variáveis X e Y.
  • "a" e "b" são constantes

Então, teremos:

\operatorname{cov}(X, Y) = \frac{\operatorname{var}(aX+bY)-a^2\operatorname{var}(X)\,-b^2\operatorname{var}(Y)\,}{2ab}

Outras nomenclaturas[editar | editar código-fonte]

A covariância é por vezes chamada de medida de dependência linear entre as duas variáveis aleatórias.

O Coeficiente de Correlação Linear é um conceito relacionado usado para medir o grau de dependência linear entre duas variáveis, variando entre -1 e 1, indicando o sentido da dependência.

Exemplo de cálculo de covariância populacional[editar | editar código-fonte]

Seja X a variável "altura dos jogadores de basquete" e seja Y a variável "peso dos mesmos atletas". A partir desses dados, é possível montar uma tabela com os desvios em relação a média. Essa tabela auxilia no cálculo da covariância1 :

Atleta Variável X=Altura em metros Variável Y=Peso em kg Desvio de X (valor menos média da variável) Desvio de Y (valor menos média da variável) Multiplicação dos desvios
1) Pedro x_1=1{,}95 y_1=93{,}1 -0,038=1,95-1,988 -1,34=93,1-94,44 -0,038*-1,34=-+0,05092
2) João 1,96 93,9 -0,028=1,96-1,988 -0,54=93,9-94,44 -0,028*-0,54=+0,01512
3) José 1,95 89,9 -0,038 -4,54 -0,038*-4,54=+0,17252
4) Renato 1,98 95,1 -0,008 +0,66 -0,008*0,66=-0,00528
5) André 2,10 100,2 +0,112 +5,76 0,112*5,76=0,64512
Soma {\color{Red}\sum_{x=1}^{N} x}= 1,95+1,96+...+2,10=9,94 {\color{Sepia}\sum_{y=1}^{N} y} =472{,}2 A soma de desvios é sempre igual a zero A soma de desvios é sempre igual a zero +0,05092+0,01512+0,17252-0,00528+0,64512=0,8784.
Número de elementos N = 5 alturas medidas N = 5 pesos medidos 5 desvios calculados 5 desvios calculados 5 multiplicações feitas
Média \frac{{\color{Red}\sum_{x=1}^{N} x}}{N}=\frac{9{,}94}{5}=1{,}988 \dfrac{{\color{Sepia}\sum_{y=1}^{N} y}}{ N }=\frac{472,2}{5}=94{,}44 A média de desvios é sempre igual a zero A média de desvios é sempre igual a zero 0,8784/5=0,17568=covariância de X e Y

Referências

  1. a b c d MILONE, Giuseppe. Estatística geral e aplicada. São Paulo: Centage Learning, 2009. Capítulo 4
  2. a b c d e Covariance, site do Department of Mathematical Sciences da University of Alabama in Huntsville
Ícone de esboço Este artigo sobre matemática é um esboço. Você pode ajudar a Wikipédia expandindo-o.