Variância

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa
Question book.svg
Esta página ou secção não cita nenhuma fonte ou referência, o que compromete sua credibilidade (desde setembro de 2011).
Por favor, melhore este artigo providenciando fontes fiáveis e independentes, inserindo-as no corpo do texto por meio de notas de rodapé. Encontre fontes: Googlenotícias, livros, acadêmicoYahoo!Bing. Veja como referenciar e citar as fontes.

Na teoria da probabilidade e na estatística, a variância de uma variável aleatória é uma medida da sua dispersão estatística, indicando quão longe em geral os seus valores se encontram do valor esperado.

A variância de uma variável aleatória real é o seu segundo momento central e também o seu segundo cumulante (os cumulantes só diferem dos momentos centrais a partir do 4º grau, inclusive). Sendo o seu valor o quadrado do Desvio Padrão.

História do conceito[editar | editar código-fonte]

O termo variância foi introduzido por Ronald Fisher num ensaio de 1918 intitulado de The Correlation Between Relatives on the Supposition of Mendelian Inheritance. O conceito de variância é análogo ao conceito de momento de inércia em mecânica clássica.

Definição[editar | editar código-fonte]

Se μ = E(X) é o valor esperado (média) da variável aleatória X, então a variância é:

\operatorname{var}(X)=\operatorname{E}((X-\mu)^2).

Isto é, é o valor esperado do quadrado do desvio de X da sua própria média. Em linguagem comum isto pode ser expresso como "A média do quadrado da distância de cada ponto até a média". É assim a "média do quadrado dos desvios". A variância da variável aleatória "X" é geralmente designada por \operatorname{var}(X), \sigma_X^2, ou simplesmente \sigma^2.

Notar que a definição acima pode ser usada quer para variáveis aleatórias discretas, quer para contínuas.

Muitas distribuições, tais como a distribuição Cauchy, não têm variância porque o integral relevante diverge. Em particular, se uma distribuição não tem valores esperados, ela também não tem variância.

O contrário não é verdadeiro: há distribuições para as quais existe valor esperado mas não existe variância, como, por exemplo, a distribuição t de Student com 2 graus de liberdade. Um contra-exemplo mais simples é uma distribuição discreta sobre \mathbb{N}^\star\, em que a probabilidade de cada ponto n é proporcional a \frac {1} {n^3}\,. O valor esperado será calculado através de uma série convergente \Sigma \frac {1} {n^2}\,, e a variância através de uma série divergente \Sigma \frac {1} {n}\,.

Propriedades[editar | editar código-fonte]

Se a variância pode ser calculada (ou seja, a integral ou o somatório convergem), podemos concluir que ela nunca é negativa, porque os quadrados são sempre positivos ou nulos.

A unidade de variância é o quadrado da unidade de observação. Por exemplo, a variância de um conjunto de alturas medidas em centímetros será dada em centímetros quadrados. A variância de um preço, medido, por exemplo, em euros por metro cúbico, será dada em euros quadrados por metro à sexta potência, uma unidade que não faz nenhum sentido prático. Este facto é inconveniente e levou muitos estatísticos a usar a raiz quadrada da variância, conhecida como o desvio padrão, como um sumário da dispersão.

Pode ser provado facilmente a partir da definição que a variância não depende do valor médio \mu. Isto é, se a variável é "deslocada" por uma quantidade b ao tomarmos X+b, a variância da variável aleatória resultante permanece inalterada. Por contraste, se a variável for multiplicada por um factor de escala a, a variância é então multiplicada por a2. Mais formalmente, se a e b forem constantes reais e X uma variável aleatória cuja variância está definida, então:

\operatorname{var}(aX+b)=a^2\operatorname{var}(X)

Outra fórmula para a variância que se deduz de forma simples a partir da definição acima é:

\operatorname{var}(X)=\operatorname{E}(X^2) - (\operatorname{E}(X))^2.

Na prática usa-se muito frequentemente esta fórmula para calcular mais rapidamente a variância.

Uma razão para o uso da variância em preferência a outras medidas de dispersão é que a variância da soma (ou diferença) de variáveis aleatórias independentes é a soma das suas variâncias. Uma condição não tão estricta, chamada de incorrelação (uncorrelatedness) também é suficiente. Em geral,

\operatorname{var}(X+Y) =\operatorname{var}(X) + \operatorname{var}(Y)
 + 2 \operatorname{cov}(X, Y).

Aqui \operatorname{cov} é a covariância, a qual é zero para variáveis aleatórias não correlacionadas.

Variância da população e variância da amostra[editar | editar código-fonte]

Em estatística, o conceito de variância também pode ser usado para descrever um conjunto de observações. Quando o conjunto das observações é uma população, é chamada de variância da população. Se o conjunto das observações é (apenas) uma amostra estatística, chamamos-lhe de variância amostral (ou variância da amostra).

A variância da população yi onde i = 1, 2, ...., N é dada por

\sigma^2 = \frac{1}{N} \sum_{i=1}^N
 \left( y_i - \mu \right) ^ 2,

onde \mu é a média da população. Na prática, quando lidando com grandes populações, é quase sempre impossível achar o valor exacto da variância da população, devido ao tempo, custo e outras restrições aos recursos.

Um método comum de estimar a variância da população é através da tomada de amostras. Quando estimando a variância da população usando n amostras aleatórias xi onde i = 1, 2, ..., n, a fórmula seguinte é um estimador não enviesado:

s^2 = \frac{1}{n-1} \sum_{i=1}^n
 \left( x_i - \overline{x} \right) ^ 2,

onde \overline{x} é a média da amostra.

Notar que o denominador n-1 acima contrasta com a equação para a variância da população. Uma fonte de confusão comum é que o termo variância da amostra e a notação s2 pode referir-se quer ao estimador não enviesado da variância da população acima como também àquilo que é em termos estrictos, a variância da amostra, calculada usando n em vez de n-1.

Intuitivamente, o cálculo da variância pela divisão por n em vez de n-1 dá uma subestimativa da variância da população. Isto porque usamos a média da amostra \overline{x} como uma estimativa da média da população \mu, o que não conhecemos. Na prática, porém, para grandes n, esta distinção é geralmente muito pequena.

Generalizações[editar | editar código-fonte]

Se X é uma variável aleatória vectorial, com valores em Rn, e considerado como um vector coluna, então a generalização natural da variância é E[(X − μ)(X − μ)T], onde μ = E(X) e XT é a transposta de X, e logo um vector-linha. A variância é uma matriz quadrada não-negativa definida, referida geralmente como a matriz de covariância.

Se X é uma variável aleatória de valores complexos, então a sua variância é E[(X − μ)(X − μ)*], onde X* é o conjugado complexo de X. Esta variância, assim como no caso real, é uma matriz quadrada não-negativa definida, cuja diagonal são números reais não-negativos.

Distribuição da variância[editar | editar código-fonte]

Como a variância é uma função de variáveis aleatórias, a variância amostral é em si também uma variável aleatória, portanto também tem distribuição. Então, se yi são observações independentes de uma distribuição normal, pelo teorema de Cochran a variância amostral s2 tem uma distribuição qui-quadrado:


(n-1)\frac{s^2}{\sigma^2}\sim\chi^2_{n-1}.

Uma consequência direta deste resultado é que a esperança da variância amostral E(s2) = σ2.

Se as observações yi são independentes e identicamente distribuídas, mas não necessariamente distribuidas como uma normal, então

 \operatorname{E}[s^2] = \sigma^2, \quad \operatorname{Var}[s^2] = \sigma^4 \left( \frac{2}{n-1} + \frac{\kappa}{n} \right),

onde κ é a curtose da distribuição. Se as condições da lei dos grandes números valerem, então s2 é um estimador consistente de  σ2.

Variância assintótica[editar | editar código-fonte]

{AP|Convergência de variáveis aleatórias} A variância assintótica é a variância limite, ou seja, aquela que a sequência, ou estimador, tem no limite.


Ver também[editar | editar código-fonte]