Qui-quadrado

Origem: Wikipédia, a enciclopédia livre.
(Redirecionado de Chi-quadrado)
Saltar para a navegação Saltar para a pesquisa
Question book-4.svg
Esta página ou secção cita fontes confiáveis e independentes, mas que não cobrem todo o conteúdo, o que compromete a verificabilidade (desde março de 2014). Por favor, insira mais referências no texto. Material sem fontes poderá ser removido.
Encontre fontes: Google (notícias, livros e acadêmico)
Distribuição Qui-quadrado
Chi-square pdf.svg
A função densidade de probabilidade da distribuição χ²
Chi-square cdf.svg
A função distribuição acumulada da distribuição χ²
Parâmetros graus de liberdade
Suporte if , caso contrário
f.d.p.
f.d.a.
Média
Mediana
Moda
Variância
Obliquidade
Curtose
Entropia
Função Geradora de Momentos
Função Característica [1]

A distribuição χ2 ou qui-quadrado é uma das distribuições mais utilizadas em estatística inferencial, principalmente para realizar testes de χ2. Este teste serve para avaliar quantitativamente a relação entre o resultado de um experimento e a distribuição esperada para o fenômeno. Isto é, ele nos diz com quanta certeza os valores observados podem ser aceitos como regidos pela teoria em questão. Muitos outros testes de hipótese usam, também, a distribuição χ2.

Teste de χ2[editar | editar código-fonte]

Dado um experimento onde foram realizadas N medidas de uma variável aleatória X. Em cada medida, a variável X assume os valores x1, x2, ...,xN. Gostaríamos de testar se a distribuição experimental dos valores x1, x2, ..., xk, ..., xN é consistente com a distribuição esperada para o fenômeno, f(X). Em outras palavras, temos que avaliar como esperaríamos que as N medidas estivessem distribuídas e então comparar com a distribuição observada. Primeiramente, em geral x é uma variável contínua, de forma que não podemos nos referir ao valor esperado de medidas com um único valor de x[2] (se x for contínuo, a probabilidade de X assumir um exato valor é zero). Logo, precisamos definir intervalos a ≤ x ≤ b e calcular o número esperado de medidas que devem estar dentro de cada intervalo j, em que j = 1, 2, …, n e n é o número de intervalos definidos. O número de medidas esperadas para o intervalo j, Ej, será, então,

,

onde Prj é a probabilidade de X assumir um valor dentro do intervalo j. Essa probabilidade obviamente depende da distribuição f(X) e é normalizada:

É natural analisar a diferença entre o número de amostras observadas dentro de cada intervalo, Oj, e o número esperado:

,

de forma que quanto menor forem estes valores, melhores serão as chances de nossa hipótese para f(X) ser verdadeira. Porém, não podemos esperar que os dois valores Oj e Ej coincidam perfeitamente para qualquer número finito de medidas que realizarmos. Na verdade, se imaginarmos uma situação onde realizamos o procedimento de contar o número Oj muitas vezes, esperamos que a média de Oj seja Ej, com um desvio padrão σj=Ej1/2.[2] Logo, esperamos que

seja da ordem de unidade, se nossa hipótese for verdadeira. Definimos, portanto, a variável χk2, com k graus de liberdade estatísticos, como sendo

indicando o quanto as distribuições experimental e teórica são parecidas. Se χ2 ≤ n, há uma boa concordância entre as distribuições, e se χ2 >> n é bem provável que a hipótese para f(X) seja falsa. Os graus de liberdade k são definidos como a diferença entre o número de medidas realizadas e o número de restrições feitas aos valores das medidas.[2]

É possível estudar as discrepâncias em experimentos que envolvam duas variáveis, em diferentes níveis. Os valores observados podem ser anotados em um quadro da seguinte forma:

Tabela das frequências de eventos com duas variáveis X e Y.
Variável X Variável Y Total
Y1 Y2 ... Yn
X1 O11 O12 ... O1n L1
X2 O21 O22 ... O2n L2
... ... ... ... ... ...
Xn On1 On2 ... Onm Lm
Total C1 C2 ... Cn T

O objetivo é observar o nível de relação existente entre as variáveis estudadas. Nesse caso, a estatística de teste é dado por:

onde as frequências esperadas são dadas por:

Distribuição χ2[editar | editar código-fonte]

A probabilidade da distribuição qui quadrado não é simétrica como a da distribuição normal, para aumentar seu estado de simetria é necessário aumentar o seu grau de liberdade, portanto a relação entre simetria e grau de liberdade são diretamente proporcionais.

Demonstração de como a simetria cresce conforme o grau de liberdade aumenta nas distribuições qui quadrado.

A variável , por si só, apresenta uma função densidade de probabilidade. Esta função apresenta qual a probabilidade de a variável assumir um valor entre e , e é dada por:

Exemplos desta função para diversos k estão plotados na figura ao lado.

Em posse desta expressão, pode-se calcular a probabilidade de, num teste de χ2, obter-se um valor igual ou maior ao valor encontrado, , calculando a integral

Desta forma, encontramos um modo quantitativo para determinar a concordância entre distribuição experimental e teórica. Em geral, para evitar o cálculo desta integral, se recorre a tabelas que apresentam os valores das probabilidades para cada intervalo de confiança e para cada grau de liberdade.

É interessante analisar que a média da distribuição χ2 é k. Isto é se repetirmos o teste de χ2 muitas vezes (para várias medidas coletadas diferentes), esperamos que a média dos valores de χ2 encontrados tenda para o número de graus de liberdade estatísticos.

A distribuição qui-quadrado pode ser simulada a partir da distribuição normal. Por definição, se forem k distribuições normais padronizadas (ou seja, média 0 e desvio padrão 1) independentes, então a soma de seus quadrados é uma distribuição qui-quadrado com k graus de liberdade:

a definição é que a soma de duas qui-quadrado independentes também é uma qui-quadrado:

Exemplo[carece de fontes?][editar | editar código-fonte]

Podemos aplicar o teste de χ2 para analisar quão boa é a concordância entre um conjunto de medidas e a relação esperada .[2] Por exemplo, suponhamos que desejamos testar a hipótese de que a trajetória do lançamento de um projétil é uma parábola. O projétil sairá de uma altura de , com uma velocidade inicial horizontal de e num local onde a gravidade vale . Esperamos, portanto, que a altura do projétil em função da sua distância em relação ao ponto de partida seja:

Para testar a hipótese, fazemos 10 medidas de x e de y em tempos específicos. A tabela abaixo mostra os valores encontrados.

ii,yi)
1(50,98)
2(80,95)
3(110,92)
4(140,90)
5(170,85)
6(200,80)
7(230,72)
8(260,62)
9(290,53)
10(320,40)

Para os valores encontrados, a incerteza na medida de x é desprezível e a de y é . Como não calculamos nenhum parâmetro a partir dos valores medidos, o número de graus de liberdade é o mesmo do número de medidas, 10. Com estes valores, podemos calcular o valor de χ2:

ou, ainda:

De posse do valor "normalizado" de , podemos usar uma tabela para descobrir a probabilidade de se obter este valor ou mais, e assim saber com quanta certeza podemos dizer que os valores encontradas realmente estão distribuídos como esperado. Neste caso, para 10 graus de liberdade:

O que descobrimos foi que a probabilidade de que as medidas obtidas realmente estejam sendo governadas pela lei prevista é de apenas 2,9%, ou seja, deveríamos rejeitar esta hipótese. Isto é, temos apenas 2,9% de certeza que a trajetória do projétil foi realmente uma parábola e que os grandes desvios observados foram apenas flutuações estatísticas.

Poderíamos ter avaliado a concordância experimental com a teórica fazendo os gráficos e comparando-os "à olho". Teríamos visto que o projétil caiu bem antes do que o previsto, sugerindo que estejamos esquecendo fatores de resistência do ar (no modelo previsto, consideramos apenas a força da gravidade, e ignoramos qualquer atrito que pudesse haver entre ar e projétil, que de fato existe, principalmente para velocidades grandes como 100 m/s).

Distribuições relacionadas[editar | editar código-fonte]

  • Se U for uma distribuição uniforme no intervalo (0,1), então -2 log U é uma distribuição qui-quadrado com 2 graus de liberdade.

Nomenclatura[editar | editar código-fonte]

O símbolo χ2, a segunda potência de χ (ou ), envolve a forma minúscula de letra do alfabeto grego chamada qui[3] (também chamada, menos frequentemente, chi em português[4]). Devido a semelhança da letra grega com a letra xis x do alfabeto latino é comum a ocorrência de confusões, motivo pelo qual alguns autores optam por utilizar o nome da letra por extenso, em expressões como qui-quadrado. Essa é a forma recomendada pelo Glossário Inglês-Português de Estatística da Sociedade Portuguesa de Estatística e da Associação Brasileira de Estatística.[5]

Referências

  1. M.A. Sanders. «Characteristic function of the central chi-squared distribution» (PDF). Consultado em 6 de março de 2009. 
  2. a b c d TAYLOR, John R., “An Introduction to Error Analysis: The Study of Uncertainties in Physical Measurements”, 1997, 2.ed.
  3. «Qui». Dicionário Priberam da Língua Portuguesa. Priberam Informática 
  4. Pedro Mateus (25 de novembro de 2010). «Sobre o nome e grafia da letra qui (alfabeto grego)». Ciberdúvidas da Língua Portuguesa. Consultado em 15 de março de 2014. 
  5. [1]