Chi-quadrado

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa
NoFonti.svg
Este artigo ou se(c)ção cita uma ou mais fontes fiáveis e independentes, mas ela(s) não cobre(m) todo o texto (desde março de 2014).
Por favor, melhore este artigo providenciando mais fontes fiáveis e independentes e inserindo-as em notas de rodapé ou no corpo do texto, conforme o livro de estilo.
Encontre fontes: Googlenotícias, livros, acadêmicoScirusBing. Veja como referenciar e citar as fontes.

A distribuição χ2 ou chi-quadrado é uma das distribuições mais utilizadas em estatística inferencial, principalmente para realizar testes de χ2. Este teste serve para avaliar quantitativamente a relação entre o resultado de um experimento e a distribuição esperada para o fenômeno. Isto é, ele nos diz com quanta certeza os valores observados podem ser aceitos como regidos pela teoria em questão. Muitos outros testes de hipótese usam, também, a distribuição χ2.

Teste de χ2[editar | editar código-fonte]

Dado um experimento onde foram realizadas N medidas de uma variável aleatória X. Em cada medida, a variável X assume os valores x1, x2, ...,xN. Gostaríamos de testar se a distribuição experimental dos valores x1, x2, ..., xk, ..., xN é consistente com a distribuição esperada para o fenômeno, f(X). Em outras palavras, temos que avaliar como esperaríamos que as N medidas estivessem distribuídas e então comparar com a distribuição observada. Primeiramente, em geral x é uma variável contínua, de forma que não podemos nos referir ao valor esperado de medidas com um único valor de x[1] (se x for contínuo, a probabilidade de X assumir um exato valor é zero). Logo, precisamos definir intervalos a ≤ x ≤ b e calcular o número esperado de medidas que devem estar dentro de cada intervalo j, em que j = 1, 2, …, n e n é o número de intervalos definidos. O número de medidas esperadas para o intervalo j, Ej, será, então,

E_j=NPr_j,

onde Prj é a probabilidade de X assumir um valor dentro do intervalo j. Essa probabilidade obviamente depende da distribuição f(X) e é normalizada:

\sum_jPr_j=1.

É natural analisar a diferença entre o número de amostras observadas dentro de cada intervalo, Oj, e o número esperado:

O_j-E_j,

de forma que quanto menor forem estes valores, melhores serão as chances de nossa hipótese para f(X) ser verdadeira. Porém, não podemos esperar que os dois valores Oj e Ej coincidam perfeitamente para qualquer número finito de medidas que realizarmos. Na verdade, se imaginarmos uma situação onde realizamos o procedimento de contar o número Oj muitas vezes, esperamos que a média de Oj seja Ej, com um desvio padrão σj=Ej1/2[1] . Logo, esperamos que

\frac{O_j-E_j}{\sigma_j}

seja da ordem de unidade, se nossa hipótese for verdadeira. Definimos, portanto, a variável χk2, com k graus de liberdade estatísticos, como sendo

\chi_k^2\equiv\sum_{j=1}^n \frac{(O_j-E_j)^2}{E_j},

indicando o quanto as distribuições experimental e teórica são parecidas. Se χ2 ≤ n, há uma boa concordância entre as distribuições, e se χ2 >> n é bem provável que a hipótese para f(X) seja falsa. Os graus de liberdade k são definidos como a diferença entre o número de medidas realizadas e o número de restrições feitas aos valores das medidas.[1]

Distribuição χ2[editar | editar código-fonte]

A variável \chi_k^2, por si só, apresenta uma função densidade de probabilidade. Esta função apresenta qual a probabilidade de a variável \chi_k^2 assumir um valor entre \chi_k^2 e \chi_k^2+d\chi_k^2, e é dada por:

A função densidade de probabilidade da distribuição χ²
f(\chi_k^2)=\frac{1}{2^{k/2}\Gamma (k/2)}(\chi_k^2)^{k/2-1}e^{-\chi_k^2/2}.

Exemplos desta função para diversos k estão plotados na figura ao lado.

Em posse desta expressão, pode-se calcular a probabilidade de, num teste de χ2, obter-se um valor igual ou maior ao valor encontrado, (\chi^2)', calculando a integral

A função distribuição acumulada da distribuição χ²
\int_{(\chi^2)'}^{\infty} f(\chi^2)\, d\chi^2.

Desta forma, encontramos um modo quantitativo para determinar a concordância entre distribuição experimental e teórica. Em geral, para evitar o cálculo desta integral, se recorre a tabelas que apresentam os valores das probabilidades para cada intervalo de confiança e para cada grau de liberdade.

É interessante analisar que a média da distrbuição χ2 é k. Isto é se repetirmos o teste de χ2 muitas vezes (para várias medidas coletadas diferentes), esperamos que a média dos valores de χ2 encontrados tenda para o número de graus de liberdade estatísticos.

A distribuição Chi-quadrado pode ser simulada a partir da distribuição normal. Por definição, se Z_1, Z_2, \ldots Z_k\, forem k distribuições normais padronizadas (ou seja, média 0 e desvio padrão 1) independentes, então a soma de seus quadrados é uma distribuição Chi-quadrado com k graus de liberdade:

\chi^2_k = Z_1^2 + Z_2^2 + \ldots + Z_k^2\,

a definição é que a soma de duas Chi-quadrado independentes também é uma Chi-quadrado:

\chi_a^2 + \chi_b^2 = \chi_{a+b}^2.

Exemplo[carece de fontes?][editar | editar código-fonte]

Podemos aplicar o teste de χ2 para analisar quão boa é a concordância entre um conjunto de medidas (x_i,y_i) e a relação esperada y=y(x).[1] Por exemplo, suponhamos que desejamos testar a hipótese de que a trajetória do lançamento de um projétil é uma parábola. O projétil sairá de uma altura de h=100 m, com uma velocidade inicial horizontal de v_i=100 m/s e num local onde a gravidade vale g=9.8m/s^2. Esperamos, portanto, que a altura do projétil em função da sua distância em relação ao ponto de partida seja:

y(x)=h-\frac{g}{2v_i^2}x^2.

Para testar a hipótese, fazemos 10 medidas de x e de y em tempos específicos. A tabela abaixo mostra os valores encontrados.

i i,yi)
1 (50,98)
2 (80,95)
3 (110,92)
4 (140,90)
5 (170,85)
6 (200,80)
7 (230,72)
8 (260,62)
9 (290,53)
10 (320,40)

Para os valores encontrados, a incerteza na medida de x é desprezível e a de y é \sigma=3. Como não calculamos nenhum parâmetro a partir dos valores medidos, o número de graus de liberdade é o mesmo do número de medidas, 10. Com estes valores, podemos calcular o valor de χ2:

\chi_{10}^2=\sum_{i=1}^{10} \frac{(y_i-y(x_i))^2}{\sigma^2}=20,24,

ou, ainda:

\frac{\chi_{10}^2}{k}=2,024.

De posse do valor "normalizado" de \chi^2, podemos usar uma tabela para descobrir a probabilidade de se obter este valor ou mais, e assim saber com quanta certeza podemos dizer que os valores encontradas realmente estão distribuídos como esperado. Neste caso, para 10 graus de liberdade:

Pr(\chi_{10}^2\ge 2,024)= 2,9%.

O que descobrimos foi que a probabilidade de que as medidas obtidas realmente estejam sendo governadas pela lei prevista é de apenas 2,9%, ou seja, deveríamos rejeitar esta hipótese. Isto é, temos apenas 2,9% de certeza que a trajetória do projétil foi realmente uma parábola e que os grandes desvios observados foram apenas flutuações estatísticas.

Poderíamos ter avaliado a concordância experimental com a teórica fazendo os gráficos e comparando-os "à olho". Teríamos visto que o projétil caiu bem antes do que o previsto, sugerindo que estejamos esquecendo fatores de resistência do ar (no modelo previsto, consideramos apenas a força da gravidade, e ignoramos qualquer atrito que pudesse haver entre ar e projétil, que de fato existe, principalmente para velocidades grandes como 100 m/s).

Distribuições relacionadas[editar | editar código-fonte]

  • Se U for uma distribuição uniforme no intervalo (0,1), então -2 log U é uma distribuição Chi-quadrado com 2 graus de liberdade.

Pronúncia[editar | editar código-fonte]

O símbolo χ2 corresponde a letra chi do alfabeto grego (pronuncia-se /ki/) elevada à segunda potência, portanto, a pronúncia correta é ki-quadrado. No entanto, devido a semelhança da letra grega com a letra x do alfabeto latino é comum a ocorrência de confusões, fazendo com que alguns autores optem por utilizar os termos qui-quadrado ou ki-quadrado para facilitar a compreensão de seus textos.

Referências

  1. a b c d TAYLOR, John R., “An Introduction to Error Analysis: The Study of Uncertainties in Physical Measurements”, 1997, 2.ed.