Testes de hipóteses

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa


Um teste de hipótese é um método de inferência estatística usando dados de um estudo científico. É um procedimento estatístico baseado na análise de uma amostra, através da teoria de probabilidades, usado para avaliar determinados parâmetros que são desconhecidos numa população. A expressão teste de significância foi criada por Ronald Fisher: "Critical tests of this kind may be called tests of significance, and when such tests are available we may discover whether a second sample is or is not significantly different from the first."[1]

Os testes de hipótese são constituídos de alternativas que são testadas. Uma população tem uma amostra retirada e através da aplicação de teoria de probabilidades é possível tirar conclusões em relação a essa amostra, como determinar sua veracidade em relação a composição da população, distinguir entre diferentes populações das quais a amostra pode ser oriunda, auxiliar na comprovação de uma teoria ou no remodelamento dos métodos de testes aplicados para a sua comprovação, determinar limites estatísticos para uma população (doenças, intenções de voto, salário, por exemplo), checar a confiabilidade de um estudo e no auxílio de qualquer tomada de decisão simples em que seja necessário um rigor estatístico para comprovação da escolha.

São fundamentais os seguintes conceitos para um teste de hipótese:

  • Hipótese nula (H0) : é a hipótese que assumimos como verdade para a construção do teste. É o efeito, teoria, alternativa que estamos interessados em testar.
  • Hipótese alternativa (H1) : é o que consideramos caso a hipótese nula não tenha evidência estatística que a defenda.
  • Erro do tipo I: a probabilidade de rejeitarmos a hipótese nula quando ela é efetivamente verdadeira (\alpha)
  • Erro do tipo II: a probabilidade de rejeitarmos a hipótese alternativa quando ela é efetivamente verdadeira.

Também é fundamental compreender que o estudo da teoria das probabilidades e a eficiência em determinar a estatística de teste correta são componentes cruciais para um resultado coerente da aplicação. Caso as hipóteses não sejam assumidas de forma correta, ou sejam cometidos erros em relação a suas atribuições ou estatísticas relacionadas, também será incorreto o resultado do teste e sua informação será incoerente com o problema estudado.

Procedimento Geral de um Teste de Hipótese[editar | editar código-fonte]

Ao estabelecermos um teste de hipótese, podemos adotar um procedimento sistemático como se segue[2] :

  1. Avaliando o problema, escolhemos as hipóteses. A hipótese nula, que será testada, e a hipótese alternativa.
  2. Utilizando da teoria estatística e informações disponíveis no problema, decidimos qual será a estatística utilizada para testar a hipótese nula. Em outras palavras, qual será o estimador para o teste. Geralmente obtemos as propriedades para esse estimador (média, desvio padrão, distribuição estatística).
  3. Admita um valor para o Erro do tipo I (\alpha), também chamado nível de significância. Com o valor para \alpha escolhido, e com os parâmetros que desejamos testar e os que obtemos do problema, construímos a região crítica. Esta que nos servirá de regra de decisão para rejeitarmos ou não a hipótese nula.
  4. Retiramos da população uma amostra, e, usando as observações desta, como a média, desvio padrão, distribuição, executamos os cálculos para determinarmos o valor da estatística de teste. Geralmente tratamos da Distribuição Normal, que usamos a estatística de teste Z, ou da Distribuição t de Student, cuja estatística é t.
  5. Se o valor da estatística (Z ou t) calculado com os dados da amostra retirada da população não pertencer à região crítica estabelecida pelo nível de significância, não rejeite a hipótese nula. Se pertencer, rejeite a hipótese nula.

Para situações onde não é possível rejeitar a hipótese nula, o procedimento pode ser repetido com diferentes valores para o nível de significância, a fim de dar maior precisão para a decisão fornecida pelo cálculo da região crítica e da estatística de teste.

Procedimento Alternativo para um Teste de Hipótese[editar | editar código-fonte]

Existe um caminho mais rápido para concluirmos a respeito da hipótese testada. Ao invés da construção de uma região crítica procedemos direto para o P-valor. O p -valor é uma estatística muito utilizada para sintetizar o resultado de um teste de hipóteses. Formalmente, é definido como a probabilidade de se obter uma estatística de teste igual ou mais extrema quanto aquela observada em uma amostra, assumindo verdadeira a hipótese nula.

  1. Adotado um nível de significância para o problema a ser estudado, calculamos a estatística de teste Z ou t.
  2. Ao invés de compararmos o valor obtido com a região crítica definida pelo nível de significância, calculamos a probabilidade de obtermos valores da estatística de teste mais extremos do que o encontrado.
  3. Nosso trabalho é averiguar se essa probabilidade é comparável a de um evento raro dado o nível de significância que escolhemos. Quanto mais raro o evento, com mais força podemos concluir a respeito da hipótese nula.

Fisher estipulou um padrão[3] para o P-valor quando utilizado contra a hipótese nula, conferindo um índice de força para a natureza da evidência que estava sendo testada. Em suma, para um valor \alpha escolhido a priori, calculamos um p-valor através de resultados mais extremos que o obtidos da estatística de teste da amostra, o que nos possibilita rejeitar a hipótese nula sempre que nosso nível de significância for maior que o P-valor calculado.

Na literatura, o P-valor é muitas vezes chamado de Probabilidade de Significância[4] .

Estatísticas de Teste Comuns[editar | editar código-fonte]

Para o cálculo das estatísticas de teste utilizamos as seguintes formulações[5] :

Nome Formula Características e Notas
Estatística Z z=\frac{\overline{x}-\mu_0}{\sigma}\sqrt n (População segue uma distribuição normal ou n > 30) e σ (desvio-padrão) é conhecido

(z é a distância da média em relação ao desvio padrão da média).

Estatística t t=\frac{\overline{x}-\mu_0} {( s / \sqrt{n} )} ,
(População segue uma distribuição normal ou n > 30) e \sigma desconhecido.

Onde:

* \mu_0  é a média suposta da população.
* \overline{x} é a média da amostra
* \sigma é o desvio padrão da população.
* n é o tamanho da amostra.
* s é o desvio padrão da amostra.

Hipóteses e testes para a média[editar | editar código-fonte]

H_0 verdadeira H_0 falsa
Aceitar H_0 Decisão correta Erro Tipo II
Rejeitar H_0 Erro Tipo I (\alpha) Decisão correta

\alpha é o nível de significância, representa a probabilidade de Erro Tipo I, ou seja, é a probabilidade de rejeitarmos uma hipótese verdadeira.

O teste consiste em verificar, através de uma amostra, se a média da população atende o caso em teste (conforme desejemos testar diferença, valor inferior ou valor superior a uma referência para a média), para um certo nível de significância desejado.

Inicialmente devemos calcular:

Z_{calc} = \frac{\overline{x} - \mu}{\frac{s}{\sqrt{n}}}
\overline{x} = média da amostra
\mu = média esperada da população
s = desvio padrão da amostra
n = tamanho da amostra

Em seguida consultamos na tabela da curva normal o Z correspondente a cada caso.

Finalmente verificamos se Z_{calc} se encontra na área de rejeição conforme o caso em teste.

Caso 1 - Unilateral ou unicaudal à esquerda[editar | editar código-fonte]

H_0: \mu = \mu_0
H_1: \mu < \mu_0
Rejeitar se
Z_{calc} < -Z_\alpha
A Distribuição Normal

Caso 2 - Unilateral ou unicaudal à direita[editar | editar código-fonte]

H_0: \mu = \mu_0
H_1: \mu > \mu_0
Rejeitar se
Z_{calc} > Z_\alpha

Caso 3 - Bilateral[editar | editar código-fonte]

Exemplos de Erros I e II para diferentes médias
H_0: \mu = \mu_0
H_1: \mu \ne \mu_0
Rejeitar se
Z_{calc} < -Z_{\alpha/2}
ou se
Z_{calc} > Z_{\alpha/2}

Exemplos[editar | editar código-fonte]

Da literatura existem exemplos clássicos para testes de hipótese. A seguir, serão citados dois deles, um que será exposto como um exemplo de construção de um teste de hipótese a partir da teoria, e um exemplo técnico envolvendo a determinação de qual população uma amostra tem maior probabilidade de pertencer.

Exemplo 1 - O Teste de Clarividência[editar | editar código-fonte]

Uma pessoa é testada quanto ao seu poder de clarividência. É mostrado para a pessoa a parte de trás de 25 cartas de um baralho comum, e ela precisa acertar a qual naipe a carta pertence. Denominamos X o número de acertos. Como desejamos encontrar evidência quanto as habilidades de clarividência da pessoa, a hipótese nula é que ela não possui essa habilidade. A alternativa é que ela tem esse dom, mesmo que em diferentes graus.

Se a hipótese nula é válida, a pessoa em teste pode apenas chutar um naipe. Como existem quatro naipes em um baralho comum, ela possui 1/4 de chance de acertar o naipe. Se a hipótese alternativa for válida, então quem está sendo testado irá acertar os naipes com probabilidade maior que 1/4. Denominando p essa probabilidade, podemos construir o teste da seguinte forma:

  • hipótese nula \text{:} \qquad H_0: p = \tfrac 14     (A pessoa está chutando)
  • hipótese alternativa \text{:} H_1: p>\tfrac 14    (Possui dom de clarividência).

Quando quem está sendo testado acertar todas as cartas, o consideraremos clarividente, e rejeitaremos a hipótese nula. Podemos aceitar o mesmo com 24 ou 23 acertos. Mas e com 19, ou 17 acertos? Qual o valor crítico para o qual passamos a atribuir 'verdadeira clarividência' ao invés de apenas sorte? Como determinamos esse valor? Fica claro que se escolhermos um valor crítico que chamaremos de c = 25, pouquíssimas pessoas testadas serão consideradas clarividentes. Mas podemos escolher um valor para c=10, e um número maior de pessoas serão consideradas clarividentes. Na prática, quem constrói o teste é que decide o quão crítico ele será. Em outras palavras, escolher o valor de c é definir quão frequente serão os erros do tipo I (quantas pessoas acertam o valor crítico apenas com chutes, sem possuírem o dom).

Podemos calcular a probabilidade para c=25 e c=10:


P(\text{rejeitar }H_0 | H_0 \text{ é válida}) = P(X = 25|p=\tfrac 14)=\left(\tfrac 14\right)^{25}\approx10^{-15},


P(\text{rejeitar }H_0 | H_0 \text{ é válida}) = P(X \ge 10|p=\tfrac 14) =\sum_{k=10}^{25}P(X=k|p=\tfrac 14)\approx 0{.}07.

O que indica que com um c=10, a probabilidade de um falso positivo é muito maior.

Mas e se a pessoa não acertar nenhuma das cartas? Também pode existir uma clarividência reversa. A probabilidade de errar o naipe é de 3/4, então existem considerações diferentes no momento de construirmos o teste para essa situação.


P(X=0| H_0 \text{ é válida}) = P(X = 0|p=\tfrac 14) =(1-\tfrac 14)^{25} \approx 0{.}00075.


É bastante improvável que alguém erre todas as cartas. Todavia, rejeitar a hipótese nula nesse caso seria ignorar a característica do testado de 'evitar o naipe correto'. É comum para esse tipo de problema associarmos uma estatística para o erro do tipo II (acusar alguém de não ser clarividente, sendo que a pessoa tem o dom). Para o problema, uma solução seria considerar um nível de significância 1% apenas se o testado conseguisse prever corretamente pelo menos duas cartas(que não teria uma probabilidade tão pequena quanto errar todas).

Exemplo 2 - O Problema dos Parafusos[editar | editar código-fonte]

Certa empresa utiliza nas suas vigas um parafuso importado com propriedades específicas para a manutenção da qualidade de suas construções. A propriedade mais interessante é resistência à tração. Duas empresas fabricam tais parafusos de acordo com as especificações técnicas de seu país. O país A fabrica parafusos com resistência média à tração de 145kg, e desvio padrão de 12 kg. O país B fabrica com uma média 155kg e desvio padrão 20kg.

Das obras de uma construtora da região houve sobra de um lote de parafusos de origem desconhecida mas do mesmo tipo dos parafusos utilizados nas vigas. Tal lote está sendo vendido por um preço interessante, todavia, a construtora precisa saber de qual país os parafusos do lote são oriundos, para poder atender as suas especificações. O leiloeiro afirma que, antes do leilão, será divulgada a resistência média de uma amostra de 25 parafusos do lote. Como a empresa que deseja comprar os parafusos deve proceder para tomar a sua decisão?

Uma resposta coerente é analisar as médias. Podemos estipular que para um valor menor que 150kg (o meio termo entre as duas médias), os parafusos são do país A, caso contrário, serão do país B. No dia do leilão, a resistência média divulgada da amostra obtida do lote é de 148kg. Os parafusos, de acordo com a nossa regra, são do país A. Mas podemos estar enganados nessa conclusão? É possível um grupo de 25 parafusos da empresa B apresentar média igual a 148kg?

Nesse ponto já estamos acostumados a considerar os erros do tipo I e II, principalmente o primeiro, conhecido como nível de significância, e também a estabelecer as hipóteses nula e alternativa:

Erro de tipo I: concluirmos que os parafusos são de A, quando na verdade são de B. a Amostra, oriunda de B, apresenta média inferior que 150kg.
Erro do tipo II: concluirmos que os parafusos são de B, quando na realidade são de A. a Amostra, oriunda de A, apresenta média superior a 150kg.
H_0 :os parafusos são do país B. Ou seja, a resistência X da amostra segue uma distribuição com \mu=155kg e desvio padrão \sigma=20kg.
H_1 :os parafusos são do país A. Com média \mu=145kg e desvio padrão \sigma=12kg.

Definida a estrutura do teste, e informada a média da amostra, podemos utilizar o teorema do limite central para estipular uma média (a mesma da população) e um desvio padrão para a amostra.

s=\frac{\sigma}{\sqrt{n}}=4 ; O desvio padrão da amostra.

Utilizando a estatística de teste normal, Z, com os dados obtidos da amostra, podemos calcular a probabilidade de erro tipo I e II. Utilizamos como região crítica (RC) os valores menores ou iguais a 150kg.

         P(\text{erro I}) = P(X \in RC|H_0\text{ é verdadeira})
         =P(X \leqslant 150|X ~ N(155;16))
         =P(Z \leqslant \frac{150-155}{4})
         =P(Z \leqslant -1{,}25)=0.10565 = 10,56% = \alpha

Onde o valor para a estatística Z=-1{,}25 foi obtido de uma tabela de distribuição normal padrão. Da mesma forma podemos proceder para o cálculo do erro tipo II, todavia, consideramos a distribuição do país A (com seu próprio desvio padrão da amostra):

           P(\text{erro II}) = P(X \notin RC|H_1 \text{é verdadeira})
           = P(X > 150| X ~N(145;5{,}76))
           = P(Z > \frac{150-145}{2.4})=P(Z>2.08)=0{,}01876=1{,}88%=\beta

Observando esses resultados vemos que para a regra de decisão definida, estaremos cometendo o erro de tipo I com maior probabilidade do que o erro do tipo II. Que equivale a concluir que a regra de decisão privilegia a afirmação de que os parafusos são de A. A construção do teste também está sujeita a erros. Como o valor dos erros I e II dependem apenas da média da amostra, podemos supor uma média para a qual obteremos o mesmo valor de \alpha e \beta, a partir de onde poderemos tomar uma decisão com maior confiabilidade, e, que seria efetiva mesmo que houvessem parafusos de outros países no lote.

Links Externos[editar | editar código-fonte]

Veja Mais[editar | editar código-fonte]

Referências

  1. R. A. Fisher (1925). Statistical Methods for Research Workers, Edinburgh: Oliver and Boyd, 1925, p.43.
  2. Estatística Básica (2004) - Bussab & Morettin - Quinta Edição pg. 332
  3. Efron e Gouss (1997)
  4. Estatística Básica (2004) Bussab & Morettin - pg 343
  5. ^ Loveland, Jennifer L. (2011). Mathematical Justification of Introductory Hypothesis Tests and Development of Reference Materials