Análise de variância

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa

Análise de variância é a técnica estatística que permite avaliar afirmações sobre as médias de populações [1] . A análise visa, fundamentalmente, verificar se existe uma diferença significativa entre as médias e se os fatores exercem influência em alguma variável dependente.

Objetivo da Análise de Variância[editar | editar código-fonte]

A análise de variância compara médias de diferentes populações para verificar se essas populações possuem médias iguais ou não. Assim, essa técnica permite que vários grupos sejam comparados a um só tempo.

Em outras palavras, a análise de variância é utilizada quando se quer decidir se as diferenças amostrais observadas são reais (causadas por diferenças significativas nas populações observadas) ou casuais (decorrentes da mera variabilidade amostral). Portanto, essa análise parte do pressuposto que o acaso só produz pequenos desvios, sendo as grandes diferenças geradas por causas reais[1] .

Exigências para executar a análise de variância[editar | editar código-fonte]

Os pressupostos básicos da análise de variância são:

Na prática, esses pressupostos não precisam ser todos rigorosamente satisfeitos. Os resultados são empiricamente verdadeiros sempre que as populações são aproximadamente normais (isso é, não muito assimétricas) e têm variâncias próximas[1] .

Testes de hipóteses[editar | editar código-fonte]

As hipóteses nula e alternativa da análise a serem testadas na análise de variância são:

  • Hipótese nula (H_0): as médias populacionais são iguais.
  • Hipótese alternativa (H_1): as médias populacionais são diferentes, ou seja, pelo menos uma das médias é diferente das demais.

Propriedades[editar | editar código-fonte]

Por se tratar de um teste bastante difundido, inúmeros softwares estatísticos e planilhas eletrônicas possuem o procedimento para ser aplicado automaticamente.

Considerando uma variável de interesse com média μ e variância \sigma^2 temos dois estimadores da variância:

\operatorname{S}_B^2 = dispersão entre os grupos (B ~ between) e \operatorname{S}_W^2 = dispersão dentro dos grupos (W ~ within)

O teste é aplicado com:

\operatorname{F} = \operatorname{S}_B^2/\operatorname{S}_W^2

Com \operatorname{K - 1} graus de liberdade no numerador e \operatorname{N - K} no denominador. Sendo K o número de fatores ou grupos e N o número de observações, e \operatorname{N - 1} = (\operatorname{K - 1}) + (\operatorname{N - K})

Exemplo[editar | editar código-fonte]

O teste Enem foi aplicado pelo governo brasileiro nos 27 estados de Federação. Deseja-se descobrir se existe diferença significativa entre as médias de notas de cada Estado. Para isso, toma-se uma amostra aleatória de alunos de cada estado. Sabemos que k=número de populações é 27. O tamanho da amostra do estado 1 é n1 (por exemplo: 100 alunos do Acre), o tamanho da amostra do estado 2 é n2 e assim por diante.

Notas dos alunos da amostra de cada Estado e média da amostra cada estado
Estado k_1=Acre k_2=Amapá ... k_{27}=Tocantins Total
Número de alunos da amostra do estado n_1 n_2 ... n_{27} {\color{MidnightBlue}\sum_{k=1}^{27} n_k} = n_1+n_2...+n_{27}
Nota do 1º aluno do estado {\color{Blue}x_1^1} {\color{OliveGreen}x_2^1} ... x_{27}^1 \sum_{k=1}^{27} x_k^1={\color{Blue}x_1^1}+{\color{OliveGreen}x_2^1}+...+x_{27}^1
Nota do 2º aluno do estado x_1^2 x_2^2 ... x_{27}^2 \sum_{k=1}^{27} x_k^2
... ... ... ... ...
Nota do último aluno da amostra do Estado (note que o número de linhas, ou seja, o número de notas de alunos, pode ser diferente em cada Estado) x_1^{n1} x_2^{n2} ... x_{27}^{n27}
Soma das notas de todos os alunos do Estado Soma das notas dos "n1" alunos do Acre (estado k_1)= \sum_{i=1}^{N1} x_1^i={\color{Blue}x_1^1}+x_1^2+...+x_1^{n1} Soma das notas dos "n2" alunos do Amapá (estado k_2)= \sum_{i=1}^{N2} x_2^i={\color{OliveGreen}x_2^1}+x_2^2+...+x_2^{n2} ... Soma das notas dos "n27" alunos de Tocantins(estado k_{27})=\sum_{i=1}^{N27} x_{27}^i Soma das notas de todos os alunos da amostra, de todos os 27 estados: \sum_{k=1}^{27}{\sum_{i=1}^{ni} x_{k}^i}=\sum_{k=1}^{27} n_k \cdot \overline{x_k}
Nota média dos alunos do Estado {\color{Red}\overline{x_1}}=\dfrac{\sum_{i=1}^{N_1} x_1^i}{n1} {\color{RubineRed}\overline{x_2}}=\dfrac{\sum_{i=1}^{N_2} x_2^i}{n_2} ... \overline{x_{27}}=\dfrac{\sum_{i=1}^{N1} x_{27}^i}{n27} {\color{YellowOrange}\overline{x}}=\dfrac{\sum_{k=1}^{27} \overline{x_k}}{27} = média ponderada das médias estaduais[2]

Calcula-se em seguida o desvio médio. Em seguida, eleva-se cada desvio ao quadrado e obtém-se a soma dos quadrados dos desvios de cada estado. Este resultado permite o cálculo da variância amostral.

Desvio de nota de cada aluno em relação à média de seu estado, elevado ao quadrado
Estado k_1=Acre k_2=Amapá ... k_{27}=Tocantins Total
Número de alunos da amostra do estado n_1 n_2 ... n_{27} {\color{MidnightBlue}\sum_{k=1}^{27} n_k} = n_1+n_2...+n_{27}
Nota do 1º aluno do estado menos média do seu estado, ao quadrado \left ( {\color{Blue}x_1^1}-{\color{Red}\overline{x_1}} \right )^2 \left ( {\color{OliveGreen}x_2^1}-{\color{RubineRed}\overline{x_2}} \right )^2 ... \left ( x_{27}^1-\overline{x_{27}} \right )^2
Nota do 2º aluno do estado menos média do seu estado, ao quadrado \left ( x_1^2-{\color{Red}\overline{x_1}} \right )^2 \left ( x_2^2-{\color{RubineRed}\overline{x_2}} \right )^2 ... ...
... ... ... ... ...
Nota do último aluno da amostra do Estado menos média do seu estado, ao quadrado \left ( x_1^{n1}-{\color{Red}\overline{x_1}} \right )^2 \left ( x_1^{n2}-{\color{RubineRed}\overline{x_1}} \right )^2 ... \left ( x_{27}^{n27}-\overline{x_{27}} \right )^2
Soma dos quadrados dos desvios de cada Estado \sum_{i=1}^{N1} \left ( x_1^{i}-{\color{Red}\overline{x_1}} \right )^2 \sum_{i=1}^{N2} \left ( x_2^{i}-{\color{RubineRed}\overline{x_2}} \right )^2 ... ...
Variância amostral (S^2) S_1^2=\dfrac{\sum_{i=1}^{N1} \left ( x_1^{i}-{\color{Red}\overline{x_1}} \right )^2}{n1-1} S_2^2=\dfrac{\sum_{i=1}^{N2} \left ( x_2^{i}-{\color{RubineRed}\overline{x_2}} \right )^2}{n2-1} ... S_{27}^2=\dfrac{\sum_{i=1}^{N27} \left ( x_1^{i}-\overline{x_{27}} \right )^2}{n27-1} {\color{Violet}S^2_d}=\dfrac{\sum_{k=1}^{27} S_k^2}{27} = variância média

De posse destes dados, é possível construir a "tabela ANOVA" (uma tabela para cada comparação):

Tabela ANOVA
Fonte de variação Soma dos quadrados Graus de liberdade Variância Valor de F
Entre amostras \sum_{j=1}^{27} j \cdot {\left ( \overline{x_j}-{\color{YellowOrange}\overline{x}} \right )^2} k-1=26 {\color{Sepia}S^2_e}=\dfrac{1}{k-1} \cdot \sum_{j=1}^{27} j \cdot {\left ( \overline{x_j}-{\color{YellowOrange}\overline{x}} \right )^2} F=\dfrac{{\color{Sepia}S^2_e}}{{\color{Violet}S^2_d}}
Dentro das amostras ... {\color{MidnightBlue}\sum_{k=1}^{27} n_k}-k={\color{MidnightBlue}\sum_{k=1}^{27} n_k}-27 {\color{Violet}S^2_d}
Total Exemplo {\color{MidnightBlue}\sum_{k=1}^{27} n_k}-1[2]



Referências

  1. a b c d e f MILONE, Giuseppe. Estatística geral e aplicada. São Paulo: Centage Learning, 2009. ISBN 85-221-0339-9. Capítulo 12.
  2. a b Escola Superior de Tecnologia e Gestão de Viseu. "Análise de Variância". Portugal. Disponível em: <http://www.estgv.ipv.pt/PaginasPessoais/lucas/material/ANOVA%20Formato%20Aluno.pdf>. Acesso em: 19 de outubro de 2013

Ver também[editar | editar código-fonte]