Teste de Chauvenet

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa

O teste de Chauvenet (ou critério de Chauvenet) permite determinar se um valor amostral (resultante de uma medida) é discrepante (ou, no termo em inglês, outlier) em relação aos demais valores restantes da amostra, supondo-se que esta amostra é retirada de uma distribuição normal.[1]

Havendo n medidas : x_1, x_2 \ldots x_n

e tendo,

a probabilidade de existir um valor que se afaste de mais do que \vert x_s-\bar{x}\vert em relação à média é:

P(\vert X-\bar{x}\vert \geq \vert x_s-\bar{x}\vert)

Com base numa lei de distribuição (distribuição normal), obtém-se o número de medida:

n_A = n \cdot P(\vert X-\bar{x}\vert \geq \vert x_s-\bar{x}\vert)

Se este número for inferior a 0,5, pode-se considerar x_s como valor aberrante (e eliminá-lo).

É necessário garantir que a aplicação deste teste não elimina demasiados valores da amostra.

Exemplo: lendo os valores 9, 10, 10, 10, 11, e 50, a média amostral é 16,7 e o desvio padrão 16,34.

50 difere de 16,7 em 33,3, o que é pouco mais que a média mais dois desvios padrão. A probabilidade de extrair valores nesta região (mais que média mais duas vezes o desvio padrão) consulta-se numa tabela, e é cerca de 0,05.

Com seis valores medidos, a estatística dá 6 × 0,05 = 0,3. Como 0,3 < 0,5, de acordo com o teste de Chauvenet, o valor de 50 deverá ser removido (passando a nova média amostra a ser de 10, e o desvio padrão de 0,7).

Aplicação prática em planilhas eletrônicas[editar | editar código-fonte]

O exemplo acima pode ser reproduzido em uma planilha eletrônica Excel da seguinte maneira:

Valor da Amostra (x) z-score (z) Distribuição normal padrão (N) índice
Fórmula = (x - n) / σ = DIST.NORMP.N(z;FALSO) = N*n
9 -0,4691 0,3574 2,1442
10 -0,4079 0,3671 2,2025
10 -0,4079 0,3671 2,2025
10 -0,4079 0,3671 2,2025
11 -0,3468 0,3757 2,2540
50 2,0397 0,0498 0,2990
Nº de Amostras (n) 6
Média (μ) 16,667
Desvio Padrão* (σ) 16,342
Média Final (μf) 10,000
Desvio Padrão Final (σf) 0,707

* No exemplo citado, o cálculo de desvio padrão foi amostral (função DESVPAD.A). Por se tratar de um cálculo feito a partir de todas os valores disponíveis (o número de amostras é igual ao número da população), deveria ter sido aplicada a função DESVPAD.P, que retornaria 14,918 em vez de 16,342. O resultado continuaria excluindo o valor 50.

Referências

Ícone de esboço Este artigo sobre matemática é um esboço. Você pode ajudar a Wikipédia expandindo-o.