Usuária:MCarrera (NeuroMat)/Testes/Significância estatística

Em estatística um resultado tem significância estatística se for improvável que tenha ocorrido por acaso. Mais concretamente, a significância está relacionada ao nível de confiança ao rejeitar a hipótese nula quando esta na verdade é verdadeira (erro do tipo I). O nível de significância de um resultado é também chamado de e não deve ser confundido com o valor p (p-value). Teste de significância é uma expressão cunhada por Ronald Fisher.

Em um teste de cauda dupla o nível de rejeição é particionado entre os dois lados da distribuição amostral e responde por apenas 5% da área abaixo da curva.

O nível de significância não deve ser confundido com probabilidade de significância, uma vez que não é uma probabilidade. Por exemplo, ao fazer um teste com uma média, se fosse possível repetir um número muito grande de amostras para calcular a média, em aproximadamente 5% dessas amostras, seria rejeitada a hipótese nula quando esta é verdadeira. Assim, como em um experimento real, somente é coletada uma amostra, espera-se que esta seja uma da 95% onde a hipótese nula é realmente falsa. Assim tem-se confiança no resultado obtido. Como outro exemplo, ao se calcular um intervalo de confiança 95%, equivalente a um erro Tipo I de 5%, tem-se confiança que o intervalo contêm o parâmetro estimado. No entanto, uma vez que reporta-se um intervalo numérico, o parâmetro populacional desconhecido ou está dentro do intervalo ou fora; não existe uma probabilidade desse intervalo conter o parâmetro.

Outro exemplo: podemos escolher um nível de significância de 5%, e calcular um valor crítico de um parâmetro (por exemplo a média) de modo que a probabilidade de ela exceder esse valor, dada a verdade da hipótese nula, ser 5%. Se o valor estatístico calculado (ou seja, o nível de 5% de significância anteriormente escolhido) exceder o valor crítico, então o resultado é significativo "ao nível de 5%".

Se o nível de significância (ex: 5% anteriormente dado) é menor, o valor é menos provavelmente um extremo em relação ao valor crítico. Deste modo, um resultado que é "significante ao nível de 1%" é mais significante do que um resultado que é significante "ao nível de 5%". No entanto, um teste ao nível de 1% é mais susceptível de padecer do erro do tipo II do que um teste de 5% e por isso terá menos poder estatístico.

Ao divisar um teste de hipóteses, o técnico deverá tentar maximizar o poder de uma dada significância, mas ultimamente tem de reconhecer que o melhor resultado que se pode obter é um compromisso entre significância e poder, em outras palavras, entre os erros de tipo I e tipo II.

É importante ressaltar que os valores p Fisherianos são filosoficamente diferentes dos erros de tipo I de Neyman-Pearson. Esta confusão é infelizmente propagada por muitos livros de estatística.

Em testes de hipótese estatísticos^[1]^[2], a significância estatística (resultado estatisticamente significante) é obtido quando o valor–p observado em um teste estatístico é menor que o nível de significância definido para o estudo.^[3]^[4]^[5]^[6]^[7]^[8]^[9] É uma medida estimada do grau em que o resultado do experimento é verdadeiro.^[10]

O valor–p (nível descritivo ou probabilidade de significância) é a probabilidade de se obter uma estatística em um teste igual ou mais extrema que as estatísticas em uma amostra dada a hipótese nula verdadeira. O nível de significância $\alpha$ é a probabilidade de se rejeitar a hipótese nula (erro tipo I) quando ela é verdadeira.^[11] Em outras palavras, o valor–p é o menor nível de significância com que rejeita–se a hipótese nula ou a probabilidade mínima de erro ao concluir que existe significância estatística.^[12] Por exemplo, rejeita–se a hipótese nula a 5% quando o valor–p é menor que 5%. Um valor–p pequeno significa que a probabilidade de se obter uma estatística em um teste com valor igual ao de uma estatística em uma amostra é muito improvável, rejeitando–se a hipótese nula.

O nível de significância é geralmente determinado pelo pesquisador antes da coleta dos dados e tradicionalmente fixado em 0,05^[13]^[14] ou abaixo^[15], dependendo da área de estudo. Em muitas áreas de estudo, resultados com nível de significância de 0,05 (probabilidade de erro de 5%) são considerados estatisticamente relevantes.^[10]

Quando retira–se uma amostra de uma população em um experimento, há possibilidade de ocorrer um efeito devido ao erro amostral (diferença entre a estimativa da amostra e o parâmetro da população).^[16]^[17] Se o valor–p do efeito for menor que o nível de significância, pode–se concluir que o efeito reflete as características de toda a população^[1] e rejeitar a hipótese nula.^[18] O conceito de teste de significância começou a ser desenvolvido no início do século XX pelo estatístico Ronald Fisher. O termo significância não implica importância e o termo significância estatística não significa pesquisa ou significância prática ou teórica.^[1]^[2]^[19] Por exemplo, o termo significância clinica refere–se à importância prática do efeito de um tratamento.

História[editar | editar código-fonte]

Em 1710, John Arbuthnot (1667 — 1735) fez a primeira tentativa de análise de teste de hipótese com cálculos probabilísticos.^[20] Em An Argument for Divine Providence, Taken From the Constant Regularity Observed in the Births of Both Sexes, Arbuthnot usou séries de dados temporais da proporção de nascimentos de homens e da proporção de nascimentos de mulheres em Londres entre 1629 e 1710 para realizar o primeiro teste de significância por meio da comparação de dados observados e hipótese nula.^[21]

Em 1925, Ronald Fisher (1890 — 1962) avançou o conceito de teste de hipótese. Em Statistical Methods for Research Workers, Fisher chamou os testes de hipótese de testes de significância^[22]^[23]^[24]^[25], sugeriu a probabilidade de 0,05 ${\Bigl (}{\frac {1}{20}}{\Bigr )}$ como o nível de corte para rejeitar a hipótese nula^[26] e aplico–a a uma distribuição normal como um teste de duas caudas.

“

Estes testes podem ser chamados testes de significância, e quando estes testes estão disponíveis podem descobrir se uma segunda amostra e ou não é significantemente diferente da primeira [amostra].^[23]

”

— Ronald Fisher, em Statistical Methods for Research Workers

Em Statistical Methods for Research Workers, Fisher também introduziu o valor aproximado de 1,96 para o 97,5 percentil de um distribuição normal usado em probabilidade e estatística e popularizou o conceito de valor–p.^[27]

Apesar da indicação da probabilidade de 0,05, Fisher não pretendia que o nível de significância fosse fixo. Em Statistical Methods and Scientific Inference, Fisher sugere que os níveis de significância sejam estabelecidos de acordo com circunstâncias específicas.^[26] Em 1933, Jerzy Neyman e Egon Pearson aprimoraram o teste de significância, denominaram o nível de corte de nível de significância $\alpha$ e recomendaram que o nível de significância $\alpha$ fosse determinado antes da coleta dos dados.^[26]^[28]

Definição informal[editar | editar código-fonte]

A significância estatística indica que é improvável que o resultado tenha ocorrido por acaso. Está relacionada ao nível de confiança ao rejeitar a hipótese nula quando ela é verdadeira (erro tipo I). O nível de significância $\alpha$ não pode ser confundido com o valor–p, sobretudo porque não é uma probabilidade. Em um teste hipotético, em que fosse possível repetir um número muito grande de amostras para calcular a média, a hipótese nula seria rejeita quando ela fosse verdadeira em aproximadamente 5% das amostras. Em um experimento real, em que é possível coletar somente uma amostra, espera–se que a amostra seja uma das 95% para as quais a hipótese nula é falsa.

É assim que tem–se a confiança do resultado. Quando calcula–se um intervalo de confiança de 95% (equivalente a um erro tipo I de 5%), tem–se a confiança que o intervalo contém o parâmetro estimado. Entretanto, quando reporta–se um intervalo, o parâmetro populacional desconhecido está dentro ou está fora do intervalo. Não existe probabilidade de o intervalo conter o parâmetro populacional.

É possível escolher um nível de significância de 5% e calcular um valor crítico de um parâmetro (por exemplo, a média), de modo que a probabilidade a probabilidade do parâmetro exceder o valor crítico dada a hipótese nula verdadeira é 5%. Se o valor estatístico (nível de significância de 5% determinado anteriormente) exceder o valor crítico, o resultado é significante ao nível de 5%. Se o nível de significância (por exemplo, o nível de significância de 5% determinado anteriormente) é menor, a probabilidade do valor estatístico ser mais extremo que o valor crítico também é menor. Então, um resultado significante ao nível de 1% é mais significante que um resultado significante ao nível de 5%. Entretanto, um teste ao nível de confiança de 1% é mais susceptível de ter o erro tipo II que um teste ao nível de confiança de 5%. Portanto, terá menos poder estatístico.

Definição formal[editar | editar código-fonte]

Em testes de hipótese, formula–se a hipótese nula $H_{0}$ a ser testada e realizam–se os testes para rejeitar ou não rejeita–la. Há quatro situações possíveis:^[29]

	Hipótese nula $H_{0}$ é verdadeira	Hipótese nula $H_{0}$ é falsa
Hipótese nula $H_{0}$ é rejeitada	Erro tipo I	Não há erro
Hipótese nula $H_{0}$ não é rejeitada	Não há erro	Erro tipo II

Ou seja, o erro tipo I ocorre quando chega–se a um resultado que aconteceu por acaso, apesar de ter significância estatística. O erro tipo I também é chamado de falso positivo. O erro tipo II ocorre quando não rejeita–se a hipótese nula quando ela é falsa. Quando realizar o teste de hipótese, o pesquisador deve tentar maximizar o poder de uma dada significância. Entretanto, o pesquisador precisa reconhecer que o melhor resultado possível é um equilíbrio entre significância e poder. Em outras palavras, entre o erro tipo I e o erro tipo II. O lema de Neyman–Pearson consiste justamente em demonstrar as condições necessárias e suficientes para o teste de hipótese mais poderoso.^[30] Portanto,

Seja $X_{1},X_{2},\dots ,X_{n}$ uma amostra aleatória com função densidade ou distribuição de probabilidade $fX(x,\theta )$ , com $\theta \in \Theta$ .

Sejam ${\begin{cases}H_{0}:\theta =\theta _{0}\\H_{1}:\theta =\theta _{1}\\\end{cases}}$ .

Seja $c$ a constante para o nível de significância $\alpha$ .

Então, o teste $\phi (X)={\begin{cases}1{\text{ se }}fX(x,\theta _{1})>cfX(x,\theta _{0})\\0{\text{ se }}fX(x,\theta _{1})\leq cfX(x,\theta _{0})\\\end{cases}}$

é definido como o teste mais poderoso para o nível de significância $\alpha$ para testar a hipótese nula $H_{0}$ contra a hipótese alternativa $H_{1}$ .^[31]

É importante ressaltar que os valores–p de Fisher são filosoficamente dos erros tipo I de Neyman–Pearson, embora muitos livros sobre análise estatística em diferentes áreas de pesquisa tanto de graduação quando de pós–graduação como se fosse um método único de inferência estatística.^[32] Hoje o método considerado clássico é o teste de hipótese de Neyman–Pearson, embora muitas vezes ele seja apresentado com os testes de significância de Fisher. Esta mistura com mais elementos de Fisher que elementos de Neyman–Pearson e com interpretação bayseana de alguns resultados pode resultar na confusão entre medidas de erro procedimentais, entre probabilidades frequentistas utilizadas e probabilidades a posteriori de a hipótese nula ser verdadeira ou conter erro e entre a significância estatística e a significância científica dos resultados da pesquisa.^[30]

Exemplos[editar | editar código-fonte]

Exemplo teorico

Considere uma fabrica qualquer a qual produz um tipo de grão e as suas máquinas podem encher pacotes para serem vendidos com uma média $\mu$ e uma variância sempre igual a $400g^{2}$ . As regulagens das máquinas estão em $\mu =500g$ para encher os pacotes na fabricação. Para entender se há falta de regulagem nas máquinas, periodicamente se obtém uma amostra de 14 pacotes. Se $\mu \neq 500g$ nas amostras, então as máquinas estão fora de controle e precisam serem reguladas. Mas se uma amostra tiver a média ${\bar {X}}=490g$ , será necessário regular as máquinas?^[33]

Ao considerar peso de cada pacote sendo $X$ , então $X\sim N(\mu ,400)$ . Para esse caso as hipóteses são:

$H_{0}:\mu =500g$

$H_{1}:\mu \neq 500g$

Observa-se que a variância $\sigma ^{2}$ é $\sigma ^{2}=400$ , onde o enunciado informa que o valor é sempre o mesmo nesse problema. Então, para todo $\mu$ , a média ${\bar {X}}$ de 14 pacotes tem a sua distribuição $N{\Big (}\mu ,{\frac {400}{14}}{\Big )}$ , onde o desvio padrão de ${\bar {X}}$ é $\sigma _{\bar {X}}=5$ .

Ao fixar $\alpha =1\%$ devido $H_{1}$ , tem-se que $H_{0}$ deve ser rejeitada quando ${\bar {X}}$ for pequeno ou grande demais.

A partir da curva normal padronizada obtém-se os scores $z_{1}$ e $z_{2}$ . Ou seja,

$z_{1}=-2,58={\frac {({\bar {X}}_{c1}-500)}{5}}\Rightarrow {\bar {X}}_{c_{1}}=487,1$

$z_{2}=2,58={\frac {({\bar {X}}_{c2}-500)}{5}}\Rightarrow {\bar {X}}_{c_{2}}=512,9$

Portanto a região crítica é definida como $RC=\{{\bar {X}}\in \mathbb {R} |{\bar {X}}\leq 487,1{\text{ou}}{\bar {X}}\geq 512,9\}$ .^[33]

Nessa problema a ${\bar {x}}_{0}=490$ . Portanto, como ${\bar {x}}_{0}$ não pertence a região crítica, logo $H_{0}$ não deverá ser rejeitada.

Exemplo prático

Se uma moeda é honesta, em 100 lances, qual a probabilidade de se obter entre 40 e 60 a face cara?^[34]

A média $\mu$ e o desvio padrão $\sigma$ para a possibilidade da face cara da moeda para os 100 lances é

$\mu =100\cdot {\frac {1}{2}}=50$ e

$\sigma ={\sqrt {100\cdot {\frac {1}{2}}\cdot {\frac {1}{2}}}}=5$

A partir dos scores de $z_{1}$ e $z_{2}$ , obtém-se:

$z_{1}={\frac {39,\!5-50}{5}}=-2,\!5$

$z_{2}={\frac {60,\!5-50}{5}}=2,\!5$

A probabilidade desejada é igual a área sob a curva normal entre $z_{1}=-2,\!5$ e $z_{2}=2,\!5$ . Ou seja, através da tabela padronizada normal, tem-se entre $z=0$ e $z=\pm 2,\!10$ a área igual a $0,\!9642$ .^[34]

A probabilidade de rejeitar a hipotese quando ela é correta é a área total da curva normal (100% = 1) menos a probabilidade desejada. Isto é, $1-0,\!9642=0,\!0358$ . Logo, a probabilidade de rejeitar a hipotese quando ela é correta, é $0,\!0358$ . A partir da probabilidade de $0,\!0358$ defini-se o nível de significância em $0,\!0358=3,\!58\%$ em rejeição da hipótese. ^[35]

Conceitos relacionados[editar | editar código-fonte]

O nível de significância $\alpha$ é o limite para o valor–p, abaixo do qual assume–se que a hipótese nula é falsa. Isto significa que o nível de significância $\alpha$ também é a probabilidade de rejeitar equivocadamente a hipótese nula, se a hipótese nula for verdadeira.^[36]

O nível de confiança $\gamma =(1-\alpha )$ é a probabilidade de não rejeitar a hipótese nula, quando ela é verdadeira.^[37]^[38]

Papel nos testes de hipótese estatísticos[editar | editar código-fonte]

In a two-tailed test, the rejection region for a significance level of α=0.05 is partitioned to both ends of the sampling distribution and makes up 5% of the area under the curve (white areas).

A significância estatística desempenha um papel fundamental em testes de hipótese estatísticos. É usado para determinar de a hipótese numa deve ser rejeitada ou mantida. A hipótese nula é a suposição padrão de que nada aconteceu ou de que nada mudou.^[39] Para a hipótese nula ser rejeitada, um resultado observado precisa ser significantemente estatístico. Isto é, o valor $p$ é menor que o nível de significância pré–estabelecido.

Para determinar se o resultado é estatisticamente significante, o pesquisado calcula o valor $p$ , a probabilidade de observar um efeito dado que a hipótese nula é verdadeira.^[9] A hipótese nula é rejeitada se o valor $p$ é menor que um nível pré–determinado $\alpha$ . $\alpha$ é chamado nível de significância e é a probabilidade de rejeitar a hipótese nula dado que ela é verdade (erro do tipo I). É geralmente estabelecido em ou abaixo de 5%.

Por exemplo, quando $\alpha$ é estabelecido em 5%, a probabilidade condicional de um erro do tipo I, dado que a hipótese nula é verdadeira, é 5%^[40]. Um resultado estatisticamente significante é aquele em que o valor $p$ observado é menor que 5%.^[41] Quando retirando dados de uma população, significa que a região de rejeição compreende 5% da distribuição amostral.^[42] Estes 5% podem ser alocados para um lado da distribuição como em um teste com uma cauda ou repartidps para os dois lados da distribuição como em um teste com duas caudas, com cada cauda (região de rejeição) contendo 2,5% da distribuição.

O uso de um teste de uma cauda depende se a questão de pesquisa ou a hipótese alternativa especificar uma direção como se um grupo de objetos é mais pesado ou o desempenho de estudantes em uma tarefa é melhor.^[43] O teste de duas caudas pode ser utllizado, mas ele será menos poderoso que o teste de uma cauda porque a região de rejeição para o teste de uma cauda é concentrado em uma extremidade da distribuição nula e tem o dobro do tamanho (5% ante 2,5%) de cada região de rejeição para o teste de duas caudas. Como resultado, a hipótese nula pode ser rejeitada com um resultado menos extremos se um teste de uma cauda foi usado.^[44] O teste de uma cauda é mais poderoso que o teste de duas caudas apenas se a direção especificada ou a hipótese alternativa forem corretas. Se a direção especificada ou a hipótese alternativa forem erradas, então o teste de uma cauda não tem poder.

Os testes de hipótese são constituídos de alternativas que são testadas. Uma população tem uma amostra retirada e através da aplicação de teoria de probabilidades é possível tirar conclusões em relação a essa amostra, como determinar sua veracidade em relação a composição da população, distinguir entre diferentes populações das quais a amostra pode ser oriunda, auxiliar na comprovação de uma teoria ou no remodelamento dos métodos de testes aplicados para a sua comprovação, determinar limites estatísticos para uma população (doenças, intenções de voto, salário, por exemplo), checar a confiabilidade de um estudo e no auxílio de qualquer tomada de decisão simples em que seja necessário um rigor estatístico para comprovação da escolha.

Limites de significância rigorosos em áreas específicas[editar | editar código-fonte]

Em áreas específicas como física de partículas ou indústria, a significância estatística geralmente é expressa em múltiplos dos desvios padrão ( $\sigma$ ) de uma distribuição normal com limites de significância estabelecidos em um nível muito mais rigoroso (por exemplo, $5\sigma$ ).^[45]^[45] Por exemplo, a certeza da existência da particula Bóson de Higgs foi baseada no critério $5\sigma$ , que corresponde ao valor $p$ de cerca de 1 em 3,5 milhões.^[46]^[47]

Em outras áreas de pesquisa científica como os estudos do genoma níveis de significância tão baixos quanto 6992500000000000000♠5×10⁻⁸ não são incomuns.^[48]^[49]

Em um exemplo na física de partículas, o padrão 5 sigma é usado para considerar o resultado significativo. O padrão 5 sigma traduz uma chance em 3,5 milhões de uma flutuação aleatória afetar o resultado, o que representa uma probabilidade de erro inferior a 0,00003 % (nível de confiança superior a 99.99997%).^[50] Este nível de certeza foi requerido para declarar a primeira detecção de ondas gravitacionais^[51]^[52] e garantir a descoberta de uma partícula consistente com bóson de Higgs em dois experimentos independentes na Organização Europeia para a Pesquisa Nuclear (CERN).

Correções[editar | editar código-fonte]

Para testes de hipóteses, o problema de comparações múltiplas (também conhecido como problema de testes múltiplos) resulta do aumento do erro do tipo I que ocorre quando os testes são usados repetidamente. Se $k$ comparações independentes foram realizadas, o nível de significância ${\bar {\alpha }}$ do experimento (também chamado taxa de erro da família) é dado por ${\bar {\alpha }}=1-\left(1-\alpha _{\{{\text{por comparação}}\}}\right)^{k}.$ Consequentemente, a menos que os testes sejam perfeitamente e positivamente dependentes, ${\bar {\alpha }}$ aumenta conforme o número de comparações aumenta. Se as comparações não forem independentes, também é possível afirmar que ${\bar {\alpha }}\leq k\cdot \alpha _{\{{\text{por comparação}}\}}$ , seguindo a desigualdade de Boole.

Há diferentes formar de garantir que a taxa de erro da família seja ${\bar {\alpha }}$ . O método mais conservador, que é livre de dependência e suposições distributivas é a correção de Bonferroni $\alpha _{\{{\text{por comparação}}\}}={\frac {\bar {\alpha }}{k}}$ . Uma correção menos conservadora pode ser obtida resolvendo a equação para a taxa de erro da família de $k$ comparações independentes para $\alpha _{\{{\text{por comparação}}\}}$ . isto resulta em $\alpha _{\{{\text{por comparação}}\}}=1-{(1-{\bar {\alpha }})}^{\frac {1}{k}}$ , que é conhecido como a correção de Šidák. Outro procedimento é o método de Holm–Bonferroni, que tem mais poder que a correção de Bonferroni testando apenas o menor p–valor ( $i=1$ ) contra o critério mais rigoroso e o maior p–valor ( $i>1$ ) contra o critério menos rigoroso^[53]

$\alpha _{\{{\text{por comparação}}\}}={\frac {\bar {\alpha }}{(k-i+1)}}$

Correção de Bonferroni[editar | editar código-fonte]

Em estatística, a correção de Bonferroni é um dos vários métodos utilizados para neutralizar o problema das comparações múltiplas. O teste de hipóteses é baseado na rejeição da hipótese nula se a probabilidade dos dados observados ficar abaixo da hipótese nula for baixa. Se as múltiplas comparações forem feitas ou se as múltiplas hipóteses forem testadas, a chance de acontecer um evento raro aumenta e, portanto, a probabilidade de rejeitar–se incorretamente a hipótese nula também aumenta. Isto é, a chance de ocorrer erro do tipo I aumenta.^[54] A correção de Bonferroni compensa este aumento por meio do teste de cada hipótese individual em um nível de significância de ${\frac {\alpha }{m}}$ , em que $\alpha$ é o nível $\alpha$ total desejado e $m$ é o número de hipóteses .^[55] Por exemplo, se foram testadas $m=20{\text{ hipóteses}}$ com $\alpha =0,05$ , então a correção de Bonferroni testaria cada hipótese individual com $\alpha ={\frac {0,05}{20}}=0,0025$ .

Desigualdade de Bonferroni[editar | editar código-fonte]

Em teoria das probabilidades, a desigualdade de Boole afirma que para qualquer conjunto finito de eventos a probabilidade de pelo menos um dos eventos acontecer não é maior que a soma das probabilidades dos eventos individuais. A desigualdade de Boole pode ser generalizada para encontrar os limites superiores e inferiores da probabilidade de um conjunto finito de eventos.^[56] Estes limites são conhecidos como desigualdades de Bonferroni.

Sejam $S_{1}:=\sum _{i=1}^{n}{\mathbb {P} }(A_{i})$ e $S_{2}:=\sum _{1\leq i<j\leq n}{\mathbb {P} }(A_{i}\cap A_{j})$ , assim como $S_{k}:=\sum _{1\leq i_{1}<\cdots <i_{k}\leq n}{\mathbb {P} }(A_{i_{1}}\cap \cdots \cap A_{i_{k}})$ , para todos os inteiros $k$ em $\{3,...,n\}$ . Então, para $k$ ímpares em $\{1,...,n\}$ , ${\mathbb {P} }{\biggl (}\bigcup _{i=1}^{n}A_{i}{\biggr )}\leq \sum _{j=1}^{k}(-1)^{j-1}S_{j}$ , e para $k$ pares em $\{2,...,n\}$ , ${\mathbb {P} }{\biggl (}\bigcup _{i=1}^{n}A_{i}{\biggr )}\geq \sum _{j=1}^{k}(-1)^{j-1}S_{j}$ .

A desigualdade de Boole é recuperada estabelecendo–se $k=1$ . Quando $k=n$ , a igualdade se mantém e a identidade resultante é o princípio da inclusão–exclusão.

Método de Holm–Bonferroni[editar | editar código-fonte]

Em estatística, o método de Holm–Bonferroni^[57] (também chamado método de Holm ou método de Bonferroni–Holm) é usado para neutralizar o problema das comparações múltiplas. Pretende–se controlar a taxa de erro da família e oferece–se um teste simples uniformemente mais poderoso que a correção de Bonferroni. É um dos primeiros usos de stepwise algorithms em inferência simultânea. O método de Holm–Bonferroni segue os seguintes passos:

Seja $H_{1},...,H_{m}$ a família de hipóteses e $P_{1},...,P_{m}$ os p–valores correspondentes.
Os p–valores são ordenados em ordem crescente $P_{(1)}\ldots P_{(m)}$ , sendo $H_{(1)}\ldots H_{(m)}$ as hipóteses associadas.
Para um dado nível de significância $\alpha$ , seja $k$ o índice mínimo para o qual $P_{(k)}>{\frac {\alpha }{m+1-k}}$ .
As hipóteses nulas $H_{(1)}\ldots H_{(k-1)}$ são rejeitadas e as hipóteses $H_{(k)}\ldots H_{(m)}$ não são rejeitadas.
Se $k=1$ , então nenhuma hipótese nula é rejeitadas. Se não existir nenhum $k$ , então todas as hipóteses nulas são rejeitadas.

Correção de Šidák[editar | editar código-fonte]

Em estatística, a correção de Šidák ou correção de Dunn–Šidák é um método utilizado para neutralizar o problema das comparações múltiplas. É um método simples de controlar a taxa de erro da família. Quando todas as hipóteses nulas são verdadeiras, o método fornece o controle do erro da família exato para testes que são estocasticamente independentes. É conservador para testes que são positivamente dependentes e é liberal para testes que são negativamente dependentes.

Limitações[editar | editar código-fonte]

Pesquisadores focam–se exclusivamente se seus resultados são estatisticamente significantes e se eles podem reportar dados que não são substanciais^[58] e replicáveis.^[59] Há também uma diferença entre a significância estatística e a significância prática. Um estudo que mostre–se estatisticamente significante não necessariamente pode ser praticamente significante.^[60]

Tamanho do efeito[editar | editar código-fonte]

Tamanho do efeito é uma medida da significância prática de um estudo.^[61] Um resultado estatisticamente significante pode ter um efeito fraco. para avaliar a significância da pesquisa do seu resultado, pesquisadores são encorajados a sempre reportar o tamanho do efeito junto com os valores $p$ . Uma medida de tamanho do efeito quantifica a força de um efeito, como a distância entre duas médias em unidades de desvio padrão, a correlação entre duas variáveis ou seus quadrados e outras medidas.^[62]

Reprodutibilidade[editar | editar código-fonte]

Um resultado estatisticamente significante pode não ser fácil de ser reproduzido. Em particular, alguns resultados estatisticamente significantes irão de fato falsos positivos. Cada tentativa sem sucesso de reproduzir um resultado aumenta a crença que o resultado era um falso positivo.^[63]

Controvérsia sobre o uso excessivo em algumas revistas[editar | editar código-fonte]

Começando nos anos 2010, algumas revistas começaram a questionar se o teste de significância, e particularmente o uso de um limiar de $\alpha =5\%$ , estava sendo muito usado como medida primária de validade de uma hipótese.^[64] Algumas revistas encorajaram autores a fazer análises mais detalhadas que apenas um teste de significância estatístico. Em psicologia social, o Journal of Basic and Applied Social Psychology baniu o uso do teste de significância dos trabalhos publicados por ela, exigindo que os autores usassem outras medidas para avaliar hipótese e impacto.^[65]^[66]

Utilizações[editar | editar código-fonte]

Medicina

Na medicina o uso do teste de significância pode ser relacionado a vários fatores, como a aceitação de uma determinada substância para um tratamento de vírus ou bactérias, as condições sobre os pacientes no sentido de risco para uma cirurgia, se é possível imunizar uma população, etc. Isso pode ser analisado se tomada uma hipótese, esta será aceita ou não dentro dos parâmetros de significância. Por exemplo, é possível verificar em uma população saudável comparando com uma população doente e, essa comparação será possível a partir de amostras de sangue de cada população. Ou seja, a amostra da população considerada saudável terá um comportamento diferente da população doente e, ambas amostras possuem características estatísticas, como desvio padrão, media, mediana, etc. Dessa forma pode-se aproximar as amostras para uma distribuição normal e comparando as duas amostras e suas curvas normais de doentes e saudáveis pode-se entender o quanto cada curva normal pode se sobrepor uma na outra. Isto é, o quanto da população saudável pode se tornar doente devido a área crítica. ^[67]

Indústria

Na indústria existem várias preocupações sobre o custo de produção, a durabilidade, a aceitação de um determinado item e etc. Por exemplo, se uma empresa tem a intenção de verificar o quanto uma carga de bateria pode sofrer impactos termo-elétricos. Ou seja, existe um probabilidade $p$ a qual pode levar a falha da bateria, dessa forma testa-se se um modelo matemático geométrico será adequado para determinar uma variável aleatória $X$ a qual indica a quantidade de impactos suportado pela bateria. Para o teste de impactos termo-elétricos providencia-se ao acaso uma amostra quantitativa $n$ de bateria e, supondo que a mostra seja $n=40$ , desenvolve-se um teste impondo a cada bateria um impacto termo-elétrico e observa-se em qual bateria irá ocorrer a falha e, dessa forma é possível expor uma tabela de frequência indicando os valores. A partir dos dados coletados inicia-se a análise sobre rejeitar ou não a hipótese do modelo matemático geométrico. Portanto, uma análise com teste de significância é possível identificar a quantidade de impactos termo-elétricos em um produto na indústria.^[68]

Agronegócio

Na agricultura se examina alguns modelos para plantar uma determinada espécie de alimento, como maçã, feijão, café e etc. Também é comum em uma lavoura ocorrer incidência de insetos os quais são conhecidos como pragas no setor para os agricultores. O controle das pragas são realizados através de pesticida os quais matam os insetos e não comprometem a colheita e isso gera custos. No entanto, se um agricultor puder verificar se o nível de pragas na sua lavoura pode permitir a troca para um pesticida mais barato e permitindo uma economia local. O agricultor ao investigar que sempre utiliza o mesmo pesticida mais caro para a quantidade superior a $10\%$ de pragas em relação a lavoura, ou seja, se o agricultor obter uma evidência de que a quantidade da lavoura contém uma quantidade inferior a $10\%$ de pragas, ele pode trocar o pesticida. Isto é, ao acaso se obtém uma amostra $n$ da lavoura e se calcula os parâmetros para o teste de hipótese, como média, mediana, desvio padrão e etc. Dessa forma o agricultor poderá economizar com o custo do pesticida através de um teste de hipótese o qual contém o nível de significância e, a hipótese de $H_{0}<10\%$ não seja rejeitada.^[69]

Ver também[editar | editar código-fonte]

Referências

↑ ^a ^b ^c Sirkin, R. Mark (2005). «Two-sample t tests». Statistics for the Social Sciences 3rd ed. Thousand Oaks, CA: SAGE Publications, Inc. pp. 271–316. ISBN 1-412-90546-X
↑ ^a ^b Borror, Connie M. (2009). «Statistical decision making». The Certified Quality Engineer Handbook 3rd ed. Milwaukee, WI: ASQ Quality Press. pp. 418–472. ISBN 0-873-89745-5
↑ Redmond, Carol; Colton, Theodore (2001). «Clinical significance versus statistical significance». Biostatistics in Clinical Trials. Col: Wiley Reference Series in Biostatistics 3rd ed. West Sussex, United Kingdom: John Wiley & Sons Ltd. pp. 35–36. ISBN 0-471-82211-6
↑ Cumming, Geoff (2012). Understanding The New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis. New York, USA: Routledge. pp. 27–28
↑ Krzywinski, Martin; Altman, Naomi (30 October 2013). «Points of significance: Significance, P values and t-tests». Nature Publishing Group. Nature Methods. 10 (11): 1041–1042. doi:10.1038/nmeth.2698. Consultado em 3 July 2014 Verifique data em: |acessodata=, |data= (ajuda)
↑ Sham, Pak C.; Purcell, Shaun M (17 April 2014). «Statistical power and significance testing in large-scale genetic studies». Nature Publishing Group. Nature Reviews Genetics. 15 (5): 335–346. doi:10.1038/nrg3706. Consultado em 3 July 2014 Verifique data em: |acessodata=, |data= (ajuda)
↑ Johnson, Valen E. (October 9, 2013). «Revised standards for statistical evidence». National Academies of Science. Proceedings of the National Academy of Sciences. 110: 19313–19317. doi:10.1073/pnas.1313476110. Consultado em 3 July 2014 Verifique data em: |acessodata=, |data= (ajuda)
↑ Altman, Douglas G. (1999). Practical Statistics for Medical Research. New York, USA: Chapman & Hall/CRC. 167 páginas. ISBN 978-0412276309
↑ ^a ^b Devore, Jay L. (2011). Probability and Statistics for Engineering and the Sciences 8th ed. Boston, MA: Cengage Learning. pp. 300–344. ISBN 0-538-73352-7
↑ ^a ^b «Conceitos Elementares de Estatística». Consultado em 01 de fevereiro de 2017 Verifique data em: |acessodata= (ajuda)
↑ Schlotzhauer, Sandra (2007). Elementary Statistics Using JMP (SAS Press) PAP/CDR ed. Cary, NC: SAS Institute. pp. 166–169. ISBN 1-599-94375-1
↑ Paes, Ângela Tavares (1998). «Itens Essenciais em Bioestatística». Arquivos Brasileiros de Cardiologia. 71 (4)
↑ Gauvreau K, Pagano M. Why 5%? Nutrition 1994;10(1):93-4.
↑ Craparo, Robert M. (2007). «Significance level». In: Salkind, Neil J. Encyclopedia of Measurement and Statistics. 3. Thousand Oaks, CA: SAGE Publications. pp. 889–891. ISBN 1-412-91611-9
↑ Sproull, Natalie L. (2002). «Hypothesis testing». Handbook of Research Methods: A Guide for Practitioners and Students in the Social Science 2nd ed. Lanham, MD: Scarecrow Press, Inc. pp. 49–64. ISBN 0-810-84486-9
↑ Babbie, Earl R. (2013). «The logic of sampling». The Practice of Social Research 13th ed. Belmont, CA: Cengage Learning. pp. 185–226. ISBN 1-133-04979-6
↑ Faherty, Vincent (2008). «Probability and statistical significance». Compassionate Statistics: Applied Quantitative Analysis for Social Services (With exercises and instructions in SPSS) 1st ed. Thousand Oaks, CA: SAGE Publications, Inc. pp. 127–138. ISBN 1-412-93982-8
↑ McKillup, Steve (2006). «Probability helps you make a decision about your results». Statistics Explained: An Introductory Guide for Life Scientists 1st ed. Cambridge, United Kingdom: Cambridge University Press. pp. 44–56. ISBN 0-521-54316-9
↑ Myers, Jerome L.; Well, Arnold D.; Lorch Jr, Robert F. (2010). «The t distribution and its applications». Research Design and Statistical Analysis: Third Edition 3rd ed. New York, NY: Routledge. pp. 124–153. ISBN 0-805-86431-8
↑ Samohyl, Robert Wayne (2009). Controle Estatístico de Qualidade. [S.l.]: Elsevier. 76 páginas
↑ «Arbuthnot's Data on Male and Female Birth Ratios in London from 1629 – 1710». Consultado em 01 de fevereiro de 2017 Verifique data em: |acessodata= (ajuda)
↑ Cumming, Geoff (2011). «From null hypothesis significance to testing effect sizes». Understanding The New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis. Col: Multivariate Applications Series. East Sussex, United Kingdom: Routledge. pp. 21–52. ISBN 0-415-87968-X
↑ ^a ^b Fisher, Ronald A. (1925). Statistical Methods for Research Workers. Edinburgh, UK: Oliver and Boyd. 43 páginas. ISBN 0-050-02170-2 Erro de citação: Código <ref> inválido; o nome "Fisher1925" é definido mais de uma vez com conteúdos diferentes
↑ Poletiek, Fenna H. (2001). «Formal theories of testing». Hypothesis-testing Behaviour. Col: Essays in Cognitive Psychology 1st ed. East Sussex, United Kingdom: Psychology Press. pp. 29–48. ISBN 1-841-69159-3
↑ "Critical tests of this kind may be called tests of significance, and when such tests are available we may discover whether a second sample is or is not significantly different from the first." — R. A. Fisher (1925). Statistical Methods for Research Workers, Edinburgh: Oliver and Boyd, 1925, p.43.
↑ ^a ^b ^c Quinn, Geoffrey R.; Keough, Michael J. (2002). Experimental Design and Data Analysis for Biologists 1st ed. Cambridge, UK: Cambridge University Press. pp. 46–69. ISBN 0-521-00976-6
↑ Felsenstein, Joseph. «Confidence Intervals, t Tests, p Values» (PDF). Department of Genome Sciences and Department of Biology – University of Washington. Consultado em 01 de fevereiro de 2017 Verifique data em: |acessodata= (ajuda)
↑ Neyman, J.; Pearson, E.S. (1933). «The testing of statistical hypotheses in relation to probabilities a priori». Mathematical Proceedings of the Cambridge Philosophical Society. 29: 492–510. doi:10.1017/S030500410001152X
↑ Magalhães, Marcos Nascimento; Lima, Antonio Carlos Pedroso (2007). Noções de Probabilidade e Estatística. São Paulo: EdUSP. 248 páginas |acessodata= requer |url= (ajuda)
↑ ^a ^b Cinelli, Carlos Leonardo Kulnig. «Inferência Estatística e Prática Econômica no Brasil: Os (ab)Usos dos Testes de Significância» (PDF)
↑ Lara, Idemauro Antonio Rodrigues de. «Teste de Hipótese – Notas de Aula» (PDF). Escola Superior de Agricultura Luiz de Queiroz da Universidade de São Paulo (ESALQ / USP). Consultado em 01 de fevereiro de 2017 Verifique data em: |acessodata= (ajuda)
↑ Hubbard, Raymond; Bayarri, M. J. (2003). «P Values are not Error Probabilities» (PDF)
↑ ^a ^b Bussab, Wilton de O. (2012). Estatística Básica. São Paulo: Saraiva. 339 páginas |acessodata= requer |url= (ajuda)
↑ ^a ^b Spiegel, Murray R. (2006). Estatística. São Paulo: Pearson. 260 páginas |acessodata= requer |url= (ajuda)
↑ Spiegel, Murray R. (2006). Estatística. São Paulo: Pearson. 261 páginas |acessodata= requer |url= (ajuda)
↑ Schlotzhauer, Sandra (2007). Elementary Statistics Using JMP (SAS Press) PAP/CDR ed. Cary, NC: SAS Institute. pp. 166–169. ISBN 1-599-94375-1
↑ "Conclusions about statistical significance are possible with the help of the confidence interval. If the confidence interval does not include the value of zero effect, it can be assumed that there is a statistically significant result." «Confidence Interval or P-Value?». doi:10.3238/arztebl.2009.0335
↑ StatNews #73: Overlapping Confidence Intervals and Statistical Significance
↑ Meier, Kenneth J.; Brudney, Jeffrey L.; Bohte, John (2011). Applied Statistics for Public and Nonprofit Administration 3rd ed. Boston, MA: Cengage Learning. pp. 189–209. ISBN 1-111-34280-6
↑ Healy, Joseph F. (2009). The Essentials of Statistics: A Tool for Social Research 2nd ed. Belmont, CA: Cengage Learning. pp. 177–205. ISBN 0-495-60143-8
↑ McKillup, Steve (2006). Statistics Explained: An Introductory Guide for Life Scientists 1st ed. Cambridge, UK: Cambridge University Press. pp. 32–38. ISBN 0-521-54316-9
↑ Health, David (1995). An Introduction To Experimental Design And Statistics For Biology 1st ed. Boston, MA: CRC press. pp. 123–154. ISBN 1-857-28132-2
↑ Myers, Jerome L.; Well, Arnold D.; Lorch, Jr., Robert F. (2010). «Developing fundamentals of hypothesis testing using the binomial distribution». Research design and statistical analysis 3rd ed. New York, NY: Routledge. pp. 65–90. ISBN 0-805-86431-8
↑ Hinton, Perry R. (2010). «Significance, error, and power». Statistics explained 3rd ed. New York, NY: Routledge. pp. 79–90. ISBN 1-848-72312-1
↑ ^a ^b Vaughan, Simon (2013). Scientific Inference: Learning from Data 1st ed. Cambridge, UK: Cambridge University Press. pp. 146–152. ISBN 1-107-02482-X
↑ Bracken, Michael B. (2013). Risk, Chance, and Causation: Investigating the Origins and Treatment of Disease 1st ed. New Haven, CT: Yale University Press. pp. 260–276. ISBN 0-300-18884-6
↑ Franklin, Allan (2013). «Prologue: The rise of the sigmas». Shifting Standards: Experiments in Particle Physics in the Twentieth Century 1st ed. Pittsburgh, PA: University of Pittsburgh Press. pp. Ii–Iii. ISBN 0-822-94430-8
↑ Clarke, GM; Anderson, CA; Pettersson, FH; Cardon, LR; Morris, AP; Zondervan, KT (February 6, 2011). «Basic statistical analysis in genetic case-control studies». Nature Protocols. 6 (2): 121–33. PMC 3154648. PMID 21293453. doi:10.1038/nprot.2010.182 Verifique data em: |acessodata=, |data= (ajuda); |acessodata= requer |url= (ajuda)
↑ Barsh, GS; Copenhaver, GP; Gibson, G; Williams, SM (July 5, 2012). «Guidelines for Genome-Wide Association Studies». PLoS Genetics. 8 (7): e1002812. PMC 3390399. PMID 22792080. doi:10.1371/journal.pgen.1002812 Verifique data em: |data= (ajuda)
↑ Heuer, Rolf (2012). «Une Fin D'Année Pleine de Suspense». Bulletin Hebdomadaire du CERN. Consultado em 24 de janeiro de 2017
↑ LIGO Scientific Collaboration, Virgo Collaboration (2016), «Observation of Gravitational Waves from a Binary Black Hole Merger», Physical Review Letters, 116 (6), PMID 26918975, arXiv:1602.03837, doi:10.1103/PhysRevLett.116.061102
↑ Abbott, B. P. (2016). «Observation of Gravitational Waves from a Binary Black Hole Merger». Physical Review Letters. Consultado em 24 de janeiro de 2017
↑ Aickin, M; Gensler, H (May 1996). «Adjusting for multiple testing when reporting research results: the Bonferroni vs Holm methods». Am J Public Health. 86 (5): 726–728. PMC 1380484. PMID 8629727. doi:10.2105/ajph.86.5.726 Verifique data em: |data= (ajuda)
↑ Mittelhammer, Ron C.; Judge, George G.; Miller, Douglas J. (2000). Econometric Foundations. [S.l.]: Cambridge University Press. pp. 73–74. ISBN 0-521-62394-4
↑ Miller, Rupert G. (1966). Simultaneous Statistical Inference. [S.l.]: Springer
↑ Casella, George; Berger, Roger L. (2002). Statistical Inference. [S.l.]: Duxbury. pp. 11–13. ISBN 0-534-24312-6
↑ Holm, S. (1979). «A simple sequentially rejective multiple test procedure». Scandinavian Journal of Statistics. 6 (2): 65–70. JSTOR 4615733. MR 538597
↑ Carver, Ronald P. (1978). «The Case Against Statistical Significance Testing». Harvard Educational Review. 48: 378–399
↑ Ioannidis, John P. A. (2005). «Why most published research findings are false». PLoS Medicine. 2: e124. PMC 1182327. PMID 16060722. doi:10.1371/journal.pmed.0020124
↑ Hojat, Mohammadreza; Xu, Gang (2004). «A Visitor's Guide to Effect Sizes». Advances in Health Sciences Education Verifique data em: |acessodata= (ajuda); |acessodata= requer |url= (ajuda)
↑ Hojat, Mohammadreza; Xu, Gang (2004). «A Visitor's Guide to Effect Sizes». Advances in Health Sciences Education Verifique data em: |acessodata= (ajuda); |acessodata= requer |url= (ajuda)
↑ Pedhazur, Elazar J.; Schmelkin, Liora P. (1991). Measurement, Design, and Analysis: An Integrated Approach Student ed. New York, NY: Psychology Press. pp. 180–210. ISBN 0-805-81063-3
↑ Stahel, Werner (2016). «Statistical Issue in Reproducibility». Principles, Problems, Practices, and Prospects Reproducibility: Principles, Problems, Practices, and Prospects: 87-114 Verifique data em: |acessodata= (ajuda); |acessodata= requer |url= (ajuda)
↑ «CSSME Seminar Series: The argument over p-values and the Null Hypothesis Significance Testing (NHST) paradigm » School of Education » University of Leeds». www.education.leeds.ac.uk. Consultado em 1 de dezembro de 2016
↑ Woolston, Chris (5 de março de 2015). «Psychology journal bans P values». Nature. 519 (7541): 9–9. doi:10.1038/519009f
↑ Siegfried, Tom (17 de março de 2015). «P value ban: small step for a journal, giant leap for science». Science News. Consultado em 1 de dezembro de 2016
↑ Magalhães, Marcos Nascimento; Lima, Antonio Carlos Pedroso (2007). Noções de Probabilidade e Estatística. São Paulo: EdUSP. 243 páginas |acessodata= requer |url= (ajuda)
↑ Magalhães, Marcos Nascimento; Lima, Antonio Carlos Pedroso de (2007). Noções de Probabilidade e Estatística. São Paulo: EdUSP. 244 páginas |acessodata= requer |url= (ajuda)
↑ «Testes de Hipótese» (PDF). UFSCAR. p. 1. Consultado em 20 de fevereiro de 2017

External links[editar | editar código-fonte]

The article "Earliest Known Uses of Some of the Words of Mathematics (S)" contains an entry on Significance that provides some historical information.
"The Concept of Statistical Significance Testing" (February 1994): article by Bruce Thompon hosted by the ERIC Clearinghouse on Assessment and Evaluation, Washington, D.C.
"What does it mean for a result to be "statistically significant"?" (no date): an article from the Statistical Assessment Service at George Mason University, Washington, D.C.

{{Statistics}} {{DEFAULTSORT:Statistical Significance}} [[Category:Statistical hypothesis testing]]

[Sirkin-1] Sirkin, R. Mark (2005). «Two-sample t tests». Statistics for the Social Sciences 3rd ed. Thousand Oaks, CA: SAGE Publications, Inc. pp. 271–316. ISBN 1-412-90546-X

[Borror-2] Borror, Connie M. (2009). «Statistical decision making». The Certified Quality Engineer Handbook 3rd ed. Milwaukee, WI: ASQ Quality Press. pp. 418–472. ISBN 0-873-89745-5

[Redmond_and_Colton-3] Redmond, Carol; Colton, Theodore (2001). «Clinical significance versus statistical significance». Biostatistics in Clinical Trials. Col: Wiley Reference Series in Biostatistics 3rd ed. West Sussex, United Kingdom: John Wiley & Sons Ltd. pp. 35–36. ISBN 0-471-82211-6

[Cumming-p27-4] Cumming, Geoff (2012). Understanding The New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis. New York, USA: Routledge. pp. 27–28

[Krzywinski_and_Altman-5] Krzywinski, Martin; Altman, Naomi (30 October 2013). «Points of significance: Significance, P values and t-tests». Nature Publishing Group. Nature Methods. 10 (11): 1041–1042. doi:10.1038/nmeth.2698. Consultado em 3 July 2014 Verifique data em: |acessodata=, |data= (ajuda)

[Sham_and_Purcell-6] Sham, Pak C.; Purcell, Shaun M (17 April 2014). «Statistical power and significance testing in large-scale genetic studies». Nature Publishing Group. Nature Reviews Genetics. 15 (5): 335–346. doi:10.1038/nrg3706. Consultado em 3 July 2014 Verifique data em: |acessodata=, |data= (ajuda)

[Johnson-7] Johnson, Valen E. (October 9, 2013). «Revised standards for statistical evidence». National Academies of Science. Proceedings of the National Academy of Sciences. 110: 19313–19317. doi:10.1073/pnas.1313476110. Consultado em 3 July 2014 Verifique data em: |acessodata=, |data= (ajuda)

[Altman-8] Altman, Douglas G. (1999). Practical Statistics for Medical Research. New York, USA: Chapman & Hall/CRC. 167 páginas. ISBN 978-0412276309

[Devore-9] Devore, Jay L. (2011). Probability and Statistics for Engineering and the Sciences 8th ed. Boston, MA: Cengage Learning. pp. 300–344. ISBN 0-538-73352-7

[:0-10] «Conceitos Elementares de Estatística». Consultado em 01 de fevereiro de 2017 Verifique data em: |acessodata= (ajuda)

[Schlotzhauer-11] Schlotzhauer, Sandra (2007). Elementary Statistics Using JMP (SAS Press) PAP/CDR ed. Cary, NC: SAS Institute. pp. 166–169. ISBN 1-599-94375-1

[12] Paes, Ângela Tavares (1998). «Itens Essenciais em Bioestatística». Arquivos Brasileiros de Cardiologia. 71 (4)

[13] Gauvreau K, Pagano M. Why 5%? Nutrition 1994;10(1):93-4.

[Salkind-14] Craparo, Robert M. (2007). «Significance level». In: Salkind, Neil J. Encyclopedia of Measurement and Statistics. 3. Thousand Oaks, CA: SAGE Publications. pp. 889–891. ISBN 1-412-91611-9

[Sproull-15] Sproull, Natalie L. (2002). «Hypothesis testing». Handbook of Research Methods: A Guide for Practitioners and Students in the Social Science 2nd ed. Lanham, MD: Scarecrow Press, Inc. pp. 49–64. ISBN 0-810-84486-9

[Babbie2-16] Babbie, Earl R. (2013). «The logic of sampling». The Practice of Social Research 13th ed. Belmont, CA: Cengage Learning. pp. 185–226. ISBN 1-133-04979-6

[Faherty-17] Faherty, Vincent (2008). «Probability and statistical significance». Compassionate Statistics: Applied Quantitative Analysis for Social Services (With exercises and instructions in SPSS) 1st ed. Thousand Oaks, CA: SAGE Publications, Inc. pp. 127–138. ISBN 1-412-93982-8

[McKillup-18] McKillup, Steve (2006). «Probability helps you make a decision about your results». Statistics Explained: An Introductory Guide for Life Scientists 1st ed. Cambridge, United Kingdom: Cambridge University Press. pp. 44–56. ISBN 0-521-54316-9

[Myers_et_al-p124-19] Myers, Jerome L.; Well, Arnold D.; Lorch Jr, Robert F. (2010). «The t distribution and its applications». Research Design and Statistical Analysis: Third Edition 3rd ed. New York, NY: Routledge. pp. 124–153. ISBN 0-805-86431-8

[20] Samohyl, Robert Wayne (2009). Controle Estatístico de Qualidade. [S.l.]: Elsevier. 76 páginas

[21] «Arbuthnot's Data on Male and Female Birth Ratios in London from 1629 – 1710». Consultado em 01 de fevereiro de 2017 Verifique data em: |acessodata= (ajuda)

[Cumming-22] Cumming, Geoff (2011). «From null hypothesis significance to testing effect sizes». Understanding The New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis. Col: Multivariate Applications Series. East Sussex, United Kingdom: Routledge. pp. 21–52. ISBN 0-415-87968-X

[Fisher1925-23] Fisher, Ronald A. (1925). Statistical Methods for Research Workers. Edinburgh, UK: Oliver and Boyd. 43 páginas. ISBN 0-050-02170-2 Erro de citação: Código <ref> inválido; o nome "Fisher1925" é definido mais de uma vez com conteúdos diferentes

[Poletiek-24] Poletiek, Fenna H. (2001). «Formal theories of testing». Hypothesis-testing Behaviour. Col: Essays in Cognitive Psychology 1st ed. East Sussex, United Kingdom: Psychology Press. pp. 29–48. ISBN 1-841-69159-3

[Fisher19252-25] "Critical tests of this kind may be called tests of significance, and when such tests are available we may discover whether a second sample is or is not significantly different from the first." — R. A. Fisher (1925). Statistical Methods for Research Workers, Edinburgh: Oliver and Boyd, 1925, p.43.

[Quinn-26] Quinn, Geoffrey R.; Keough, Michael J. (2002). Experimental Design and Data Analysis for Biologists 1st ed. Cambridge, UK: Cambridge University Press. pp. 46–69. ISBN 0-521-00976-6

[27] Felsenstein, Joseph. «Confidence Intervals, t Tests, p Values» (PDF). Department of Genome Sciences and Department of Biology – University of Washington. Consultado em 01 de fevereiro de 2017 Verifique data em: |acessodata= (ajuda)

[Neyman-28] Neyman, J.; Pearson, E.S. (1933). «The testing of statistical hypotheses in relation to probabilities a priori». Mathematical Proceedings of the Cambridge Philosophical Society. 29: 492–510. doi:10.1017/S030500410001152X

[29] Magalhães, Marcos Nascimento; Lima, Antonio Carlos Pedroso (2007). Noções de Probabilidade e Estatística. São Paulo: EdUSP. 248 páginas |acessodata= requer |url= (ajuda)

[:1-30] Cinelli, Carlos Leonardo Kulnig. «Inferência Estatística e Prática Econômica no Brasil: Os (ab)Usos dos Testes de Significância» (PDF)

[31] Lara, Idemauro Antonio Rodrigues de. «Teste de Hipótese – Notas de Aula» (PDF). Escola Superior de Agricultura Luiz de Queiroz da Universidade de São Paulo (ESALQ / USP). Consultado em 01 de fevereiro de 2017 Verifique data em: |acessodata= (ajuda)

[32] Hubbard, Raymond; Bayarri, M. J. (2003). «P Values are not Error Probabilities» (PDF)

[:2-33] Bussab, Wilton de O. (2012). Estatística Básica. São Paulo: Saraiva. 339 páginas |acessodata= requer |url= (ajuda)

[:3-34] Spiegel, Murray R. (2006). Estatística. São Paulo: Pearson. 260 páginas |acessodata= requer |url= (ajuda)

[35] Spiegel, Murray R. (2006). Estatística. São Paulo: Pearson. 261 páginas |acessodata= requer |url= (ajuda)

[Schlotzhauer2-36] Schlotzhauer, Sandra (2007). Elementary Statistics Using JMP (SAS Press) PAP/CDR ed. Cary, NC: SAS Institute. pp. 166–169. ISBN 1-599-94375-1

[37] "Conclusions about statistical significance are possible with the help of the confidence interval. If the confidence interval does not include the value of zero effect, it can be assumed that there is a statistically significant result." «Confidence Interval or P-Value?». doi:10.3238/arztebl.2009.0335

[38] StatNews #73: Overlapping Confidence Intervals and Statistical Significance

[Meier-39] Meier, Kenneth J.; Brudney, Jeffrey L.; Bohte, John (2011). Applied Statistics for Public and Nonprofit Administration 3rd ed. Boston, MA: Cengage Learning. pp. 189–209. ISBN 1-111-34280-6

[Healy2009-40] Healy, Joseph F. (2009). The Essentials of Statistics: A Tool for Social Research 2nd ed. Belmont, CA: Cengage Learning. pp. 177–205. ISBN 0-495-60143-8

[Healy2006-41] McKillup, Steve (2006). Statistics Explained: An Introductory Guide for Life Scientists 1st ed. Cambridge, UK: Cambridge University Press. pp. 32–38. ISBN 0-521-54316-9

[Heath-42] Health, David (1995). An Introduction To Experimental Design And Statistics For Biology 1st ed. Boston, MA: CRC press. pp. 123–154. ISBN 1-857-28132-2

[Myers_et_al-p65-43] Myers, Jerome L.; Well, Arnold D.; Lorch, Jr., Robert F. (2010). «Developing fundamentals of hypothesis testing using the binomial distribution». Research design and statistical analysis 3rd ed. New York, NY: Routledge. pp. 65–90. ISBN 0-805-86431-8

[Hinton_2014-44] Hinton, Perry R. (2010). «Significance, error, and power». Statistics explained 3rd ed. New York, NY: Routledge. pp. 79–90. ISBN 1-848-72312-1

[Vaughan-45] Vaughan, Simon (2013). Scientific Inference: Learning from Data 1st ed. Cambridge, UK: Cambridge University Press. pp. 146–152. ISBN 1-107-02482-X

[Bracken-46] Bracken, Michael B. (2013). Risk, Chance, and Causation: Investigating the Origins and Treatment of Disease 1st ed. New Haven, CT: Yale University Press. pp. 260–276. ISBN 0-300-18884-6

[franklin-47] Franklin, Allan (2013). «Prologue: The rise of the sigmas». Shifting Standards: Experiments in Particle Physics in the Twentieth Century 1st ed. Pittsburgh, PA: University of Pittsburgh Press. pp. Ii–Iii. ISBN 0-822-94430-8

[Clarke_et_al-48] Clarke, GM; Anderson, CA; Pettersson, FH; Cardon, LR; Morris, AP; Zondervan, KT (February 6, 2011). «Basic statistical analysis in genetic case-control studies». Nature Protocols. 6 (2): 121–33. PMC 3154648. PMID 21293453. doi:10.1038/nprot.2010.182 Verifique data em: |acessodata=, |data= (ajuda); |acessodata= requer |url= (ajuda)

[Barsh_et_al-49] Barsh, GS; Copenhaver, GP; Gibson, G; Williams, SM (July 5, 2012). «Guidelines for Genome-Wide Association Studies». PLoS Genetics. 8 (7): e1002812. PMC 3390399. PMID 22792080. doi:10.1371/journal.pgen.1002812 Verifique data em: |data= (ajuda)

[50] Heuer, Rolf (2012). «Une Fin D'Année Pleine de Suspense». Bulletin Hebdomadaire du CERN. Consultado em 24 de janeiro de 2017

[51] LIGO Scientific Collaboration, Virgo Collaboration (2016), «Observation of Gravitational Waves from a Binary Black Hole Merger», Physical Review Letters, 116 (6), PMID 26918975, arXiv:1602.03837, doi:10.1103/PhysRevLett.116.061102

[52] Abbott, B. P. (2016). «Observation of Gravitational Waves from a Binary Black Hole Merger». Physical Review Letters. Consultado em 24 de janeiro de 2017

[53] Aickin, M; Gensler, H (May 1996). «Adjusting for multiple testing when reporting research results: the Bonferroni vs Holm methods». Am J Public Health. 86 (5): 726–728. PMC 1380484. PMID 8629727. doi:10.2105/ajph.86.5.726 Verifique data em: |data= (ajuda)

[54] Mittelhammer, Ron C.; Judge, George G.; Miller, Douglas J. (2000). Econometric Foundations. [S.l.]: Cambridge University Press. pp. 73–74. ISBN 0-521-62394-4

[55] Miller, Rupert G. (1966). Simultaneous Statistical Inference. [S.l.]: Springer

[56] Casella, George; Berger, Roger L. (2002). Statistical Inference. [S.l.]: Duxbury. pp. 11–13. ISBN 0-534-24312-6

[57] Holm, S. (1979). «A simple sequentially rejective multiple test procedure». Scandinavian Journal of Statistics. 6 (2): 65–70. JSTOR 4615733. MR 538597

[Carver-58] Carver, Ronald P. (1978). «The Case Against Statistical Significance Testing». Harvard Educational Review. 48: 378–399

[Ioannidis-59] Ioannidis, John P. A. (2005). «Why most published research findings are false». PLoS Medicine. 2: e124. PMC 1182327. PMID 16060722. doi:10.1371/journal.pmed.0020124

[60] Hojat, Mohammadreza; Xu, Gang (2004). «A Visitor's Guide to Effect Sizes». Advances in Health Sciences Education Verifique data em: |acessodata= (ajuda); |acessodata= requer |url= (ajuda)

[61] Hojat, Mohammadreza; Xu, Gang (2004). «A Visitor's Guide to Effect Sizes». Advances in Health Sciences Education Verifique data em: |acessodata= (ajuda); |acessodata= requer |url= (ajuda)

[Pedhazur-62] Pedhazur, Elazar J.; Schmelkin, Liora P. (1991). Measurement, Design, and Analysis: An Integrated Approach Student ed. New York, NY: Psychology Press. pp. 180–210. ISBN 0-805-81063-3

[63] Stahel, Werner (2016). «Statistical Issue in Reproducibility». Principles, Problems, Practices, and Prospects Reproducibility: Principles, Problems, Practices, and Prospects: 87-114 Verifique data em: |acessodata= (ajuda); |acessodata= requer |url= (ajuda)

[64] «CSSME Seminar Series: The argument over p-values and the Null Hypothesis Significance Testing (NHST) paradigm » School of Education » University of Leeds». www.education.leeds.ac.uk. Consultado em 1 de dezembro de 2016

[65] Woolston, Chris (5 de março de 2015). «Psychology journal bans P values». Nature. 519 (7541): 9–9. doi:10.1038/519009f

[66] Siegfried, Tom (17 de março de 2015). «P value ban: small step for a journal, giant leap for science». Science News. Consultado em 1 de dezembro de 2016

[67] Magalhães, Marcos Nascimento; Lima, Antonio Carlos Pedroso (2007). Noções de Probabilidade e Estatística. São Paulo: EdUSP. 243 páginas |acessodata= requer |url= (ajuda)

[68] Magalhães, Marcos Nascimento; Lima, Antonio Carlos Pedroso de (2007). Noções de Probabilidade e Estatística. São Paulo: EdUSP. 244 páginas |acessodata= requer |url= (ajuda)

[69] «Testes de Hipótese» (PDF). UFSCAR. p. 1. Consultado em 20 de fevereiro de 2017

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]