Significância estatística

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa

A significância estatística é considerada um procedimento para verificar a discrepância de uma hipótese estatística em relação aos dados observados, utilizando uma medida de evidência (p–valor).[1] Este procedimento foi definido por Ronald Fisher no início do século XX como teste de significância. Entretanto, cabe notar que o termo significância não implica importância e o termo significância estatística não quer dizer significância prática. Por exemplo, o termo significância clínica se refere à importância prática do efeito de um tratamento.[2][3][4]

O nível de significância é a probabilidade de erro do tipo I (rejeitar a hipótese nula quando ela é verdadeira).[5] Em testes de hipóteses estatísticos, diz–se que há significância estatística ou que o resultado é estatisticamente significante quando o p–valor observado é menor que o nível de significância definido para o estudo.[2][3] O nível de significância é geralmente determinado pelo pesquisador antes da coleta dos dados e tradicionalmente fixado em 0,05 ou abaixo, dependendo da área de estudo.[6][7][8] Em muitas áreas de estudo, resultados com nível de significância de 0,05 (probabilidade de erro de 5%) são considerados estatisticamente relevantes.[9][10][11][12][13][14][15]

O p–valor (nível descritivo ou probabilidade de significância) é a probabilidade de se obter uma estatística de teste igual ou mais extrema que a estatística observada a partir de uma amostra de uma população quando a hipótese nula é verdadeira. Em outras palavras, o p–valor é o menor nível de significância para o qual se rejeita a hipótese nula. Por exemplo, a hipótese nula é rejeitada a 5% quando o p–valor é menor que 5%.[16]

Quando se retira uma amostra de uma população em um experimento, sempre há possibilidade que um efeito observado ocorra devido ao erro amostral (diferença entre a estimativa da amostra e o parâmetro da população).[17][18] No entanto, quando o p–valor do efeito for menor que o nível de significância, pode–se concluir que o efeito reflete as características de toda a população e, consequemente, rejeitar a hipótese nula.[2][19]

História[editar | editar código-fonte]

Retrato de Ronald Fisher.

Em 1710, John Arbuthnot (1667 — 1735) fez a primeira tentativa de análise de teste de hipótese com cálculos probabilísticos.[20] Em An Argument for Divine Providence, Taken From the Constant Regularity Observed in the Births of Both Sexes, Arbuthnot usou séries de dados temporais da proporção de nascimentos de homens e da proporção de nascimentos de mulheres em Londres entre 1629 e 1710 para realizar o primeiro teste de significância por meio da comparação de dados observados e da hipótese nula.[21]

Em 1925, Ronald Fisher (1890 — 1962) avançou o conceito de teste de hipótese. Em Statistical Methods for Research Workers, Fisher chamou os testes de hipótese de testes de significância, sugeriu a probabilidade de 0,05 como o nível de corte para rejeitar a hipótese nula e aplicou essa probabilidade a uma distribuição normal como um teste de duas caudas.[22][23][24][25][26]

Em Statistical Methods for Research Workers, Fisher também introduziu o valor aproximado de 1,96 para o 97,5 percentil de uma distribuição normal usado em probabilidade e estatística e popularizou o conceito de p–valor.[27] Apesar da indicação da probabilidade de 0,05, Fisher não pretendia que o nível de significância fosse fixo. O estatístico inglês sugeriu que os níveis de significância fossem estabelecidos de acordo com circunstâncias específicas.[22]

Em 1933, Jerzy Neyman e Egon Pearson aprimoraram o teste de significância, denominaram o nível de corte de nível de significância e recomendaram que o nível de significância fosse determinado antes da coleta dos dados.[22][28]

Conceitos relacionados[editar | editar código-fonte]

Teste de hipóteses[editar | editar código-fonte]

Ver artigo principal: Teste de hipóteses

O teste de hipótese é um procedimento estatístico baseado na análise de uma amostra por meio da teoria das probabilidades, utilizado para avaliar determinados parâmetros desconhecidos em uma população. O teste de hipótese propõe uma hipótese para a relação estatística entre os dois conjuntos de dados comparados. Esta comparação é considerada estatisticamente significante se a relação entre os conjuntos de dados rejeitar a hipótese nula.[29]

Em um teste de hipótese, a hipótese nula é a hipótese assumida como verdadeira para a construção do teste, a hipótese alternativa é a hipótese considerada quando a hipótese nula não tem evidência estatística, o erro do tipo I é a probabilidade de se rejeitar a hipótese nula quando ela é verdadeira e o erro do tipo II é a probabilidade de não rejeitar a hipótese alternativa quando ela é falsa.[30]

Nível de significância[editar | editar código-fonte]

O nível de significância é o limite para o p–valor, abaixo do qual assume–se que a hipótese nula é falsa. O p–valor é a probabilidade de se obter uma estatística de teste igual ou mais extrema que a estatística observada a partir de uma amostra de uma população quando ela é verdadeira. Isto significa que o nível de significância é a probabilidade de se rejeitar incorretamente a hipótese nula quando ela é verdadeira. O nível de significância corresponde ao erro do tipo I, cujos valores comuns são 5% e 1%.[31]

Nível de confiança[editar | editar código-fonte]

O nível de confiança é a probabilidade de não rejeitar a hipótese nula quando ela é verdadeira. Em relação ao intervalo de confiança, o nível de confiança é a frequência com a qual o intervalo observado contém o parâmetro real de interesse quando o experimento é repetido várias vezes. Por exemplo, o nível de confiança de 95% significa que 95% dos intervalos de confiança construídos a partir das amostras aleatórias contêm o parâmetro real. Em relação ao teste de hipótese, o nível de confiança é o complemento do nível de significância. Isto é, um intervalo de confiança de 95% reflete um nível de significância de 0,05.[32][33]

Método de Neyman–Pearson[editar | editar código-fonte]

Ver artigo principal: Método de Neyman–Pearson
Relação entre os erros do tipo I e do tipo II associados às distribuições das hipóteses nula e alternativa.

Há alguns métodos para verificar a significância como o método de Fisher que reporta o p–valor e o método de Jeffreys que utiliza a probabilidade a posteriori com base na probabilidade a priori pela distribuição de Cauchy.[34][35]

O método clássico e não unânime é o método de Neyman–Pearson, pelo qual em testes de hipóteses formula–se a hipótese nula a ser testada e realizam–se os testes para rejeitá–la ou não rejeitá–la. Neste sentido, há quatro situações possíveis:[36][37]

Hipótese nula é verdadeira Hipótese nula é falsa
Hipótese nula é rejeitada Erro do tipo I Não há erro
Hipótese nula não é rejeitada Não há erro Erro do tipo II

Especificamente, o erro do tipo I (também chamado de falso positivo) ocorre quando chega–se a um resultado que aconteceu por acaso, apesar de ter significância estatística. Quando realizar o teste de hipótese, o pesquisador deve tentar maximizar o poder de uma dada significância. Entretanto, o pesquisador precisa reconhecer que o melhor resultado possível é um equilíbrio entre significância e poder (entre o erro do tipo I e o erro do tipo II). O lema de Neyman–Pearson consiste justamente em demonstrar as condições necessárias e suficientes para o teste de hipótese mais poderoso.[38]

Seja uma amostra aleatória com função densidade ou distribuição de probabilidade , com . Sejam . Seja a constante para o nível de significância . Então, o teste é definido como o teste mais poderoso para o nível de significância para testar a hipótese nula contra a hipótese alternativa .[39]

Exemplos[editar | editar código-fonte]

Fábrica de grãos[editar | editar código-fonte]

Seja uma fábrica qualquer que produz um tipo de grão e cujas máquinas podem encher pacotes para serem vendidos com uma média e uma variância sempre igual a . As regulagens das máquinas estão em para encher os pacotes na fabricação. Para entender se há falta de regulagem nas máquinas, periodicamente se obtém uma amostra de 14 pacotes. Se as amostras tiverem , então as máquinas estão fora de controle e precisam ser reguladas. Entretanto, se uma amostra tiver média , será necessário regular as máquinas?[40]

Considerando o peso de cada pacote, tem–se . Neste caso, as hipóteses são . Considerando a variância para a média de 14 pacotes, tem–se para todo , em que o desvio padrão de é . Fixando o nível de significância , tem–se que deve ser rejeitada quando for pequeno ou grande demais.[40]

A partir da curva normal padronizada, obtém–se os scores e :

[40]

Portanto, a região crítica é definida como .[40] Neste problema, . Portanto, como não pertence a região crítica, não deve ser rejeitada. Lembrando que a região de aceitação é o conjunto de valores do teste estatístico para o qual a hipótese nula não é rejeitada e a região de rejeição ou a região crítica é o conjunto de valores do teste estatístico para o qual a hipótese nula é rejeitada.[40]

Lançamento de moedas[editar | editar código-fonte]

Se uma moeda é honesta, qual a probabilidade de cair cara entre 40 e 60 vezes em 100 lances?[41]

Para a probabilidade de cair cara para os 100 lances, a média e o desvio padrão . [41]

A partir dos scores de e , obtém–se:

.[41]

A probabilidade desejada é igual a área sob a curva normal entre e . Isto é, por meio da tabela padronizada normal, tem–se a área igual a entre e .[41]

A probabilidade de se rejeitar a hipótese nula quando ela é verdadeira é a área total da curva normal menos a probabilidade desejada. Isto é, . Logo, a probabilidade de se rejeitar a hipótese nula quando ela é verdadeira é . A partir da probabilidade de , define–se o nível de significância de .[42]

RC-Normal.svg

Relação com nível de significância e intervalo de confiança[editar | editar código-fonte]

Em um teste de cauda dupla, o nível de rejeição é particionado entre os dois lados da distribuição amostral e responde por apenas 5% da área abaixo da curva.

A significância estatística está relacionada ao nível de significância, a probabilidade de rejeitar a hipótese nula quando ela é verdadeira (erro do tipo I). Em um teste hipotético com nível de significância igual a 5%, em que fosse possível repetir um número muito grande de amostras para calcular a média, a hipótese nula seria rejeitada quando ela fosse verdadeira em aproximadamente 5% das amostras. Em um experimento real, em que é possível coletar somente uma amostra, espera–se que a amostra seja uma das 95% para as quais a hipótese nula é falsa.[6][7][8]

É assim que tem–se a confiança do resultado. Quando calcula–se um intervalo de confiança de 95% (equivalente a um erro do tipo I de 5%), tem–se a confiança que o intervalo contém o parâmetro estimado. Entretanto, quando reporta–se um intervalo, o parâmetro populacional desconhecido está dentro ou está fora deste intervalo. Não existe probabilidade deste intervalo conter o parâmetro populacional.[32][33]

É possível escolher um nível de significância de 5% e calcular um valor crítico de um parâmetro (por exemplo, a média), de modo que a probabilidade do parâmetro exceda o valor crítico dada a hipótese nula verdadeira ao nível de 5%. Se o valor estatístico exceder o valor crítico, o resultado será significante ao nível de 5%. Se o nível de significância for menor, a probabilidade do valor estatístico ser mais extremo que o valor crítico também será menor. Então, um resultado significante ao nível de 1% é mais significante que um resultado significante ao nível de 5%. No entanto, um teste ao nível de significância de 1% é mais susceptível de ter o erro do tipo II que um teste ao nível de significância de 5%. Portanto, terá menos poder estatístico.[43]

Relação com teste de hipóteses[editar | editar código-fonte]

Em um teste de duas caudas, a região de rejeição para um nível de significância de 0,05 é dividida em ambas as extremidades da distribuição amostral e corresponde a 5% da área sob a curva (áreas brancas).

A significância estatística desempenha um papel fundamental em testes de hipóteses estatísticos, sendo usada para determinar se a hipótese nula deve ou não deve ser rejeitada. Lembrando que a hipótese nula é a suposição padrão de que nada aconteceu ou de que nada mudou.[44] Para a hipótese nula ser rejeitada, um resultado observado precisa ser estatisticamente significante. Isto é, o p–valor precisa ser menor que o nível de significância pré–estabelecido.[16]

Para determinar se o resultado é estatisticamente significante, o pesquisador calcula o p–valor, a probabilidade de observar um efeito dado que a hipótese nula é verdadeira.[15] A hipótese nula é rejeitada se o p–valor for menor que um nível de significância pré–determinado . O nível de significância é a probabilidade de rejeitar a hipótese nula quando que ela é verdadeira (erro do tipo I). Então, é geralmente estabelecido em ou abaixo de 5%.[31]

Por exemplo, quando é estabelecido em 5% (probabilidade de erro do tipo I é 5%), um resultado estatisticamente significante é aquele em que o p–valor observado é menor que 5%.[45][46] Quando são retirados dados de uma população, isto significa que a região de rejeição compreende 5% da distribuição amostral. Estes 5% podem ser alocados para um lado da distribuição como em um teste com uma cauda ou repartidos para os dois lados da distribuição como em um teste com duas caudas, com cada cauda (região de rejeição) contendo 2,5% da distribuição.[47]

O uso de um teste uni–caudal depende se a questão de pesquisa ou a hipótese alternativa especificam uma única direção. Por exemplo, perguntar se um grupo de objetos é mais pesado que outro ou se o desempenho de estudantes em uma tarefa é melhor que em outra.[48] Nestes casos, um teste bi–caudal pode ser utilizado. Entretanto, o teste bi–caudal será menos poderoso que o teste uni–caudal porque a região de rejeição para o teste de uma cauda é concentrado em uma extremidade da distribuição nula e tem o dobro do tamanho (5% versus 2,5%) de cada região de rejeição para o teste de duas caudas. Consequentemente, a hipótese nula pode ser rejeitada com um resultado menos extremo se um teste uni–caudal for utilizado.[49] No entanto, o teste uni–caudal é mais poderoso que o teste bi–caudal apenas se a direção especificada ou a hipótese alternativa forem verdadeiras. Se a direção especificada ou a hipótese alternativa forem falsas, então o teste uni–caudal não tem poder.[50]

Os testes de hipótese são constituídos a partir de alternativas que são testadas. Se uma amostra é retirada de uma população, é possível tirar conclusões sobre esta amostra por meio da aplicação da teoria de probabilidades. Por exemplo, determinar sua veracidade em relação a composição da população, distinguir entre diferentes populações das quais a amostra pode ter sido retirada, auxiliar na comprovação de uma teoria ou no remodelamento dos métodos dos testes aplicados para sua comprovação, determinar limites estatísticos para uma população (doenças, intenções de voto, salário, entre outros), checar a confiabilidade de um estudo ou contribuir para qualquer tomada de decisão simples, em que seja necessário um rigor estatístico para a comprovação da escolha.[29]

É importante ressaltar que os p–valores de Fisher são filosoficamente semelhantes aos erros do tipo I de Neyman–Pearson. A diferença entre eles não é trivial e reflete a diferença fundamental entre as ideias de Fisher sobre os testes de significância com inferência indutiva e o teste de hipóteses de Neyman–Pearson com procedimento indutivo. Entretanto, muitos livros sobre análise estatística em diferentes áreas de estudo tanto na graduação quando na pós–graduação abordam o assunto como se fossem um método único de inferência estatística.[51]

Hoje o método considerado clássico é o teste de hipótese de Neyman–Pearson, embora muitas vezes ele seja apresentado com os testes de significância de Fisher. Esta mistura com mais elementos de Fisher do que elementos de Neyman–Pearson e com interpretação bayseana de alguns resultados pode resultar na confusão entre medidas de erro procedimentais, probabilidades frequentistas e probabilidades a posteriori de a hipótese nula ser verdadeira e significância estatística e significância científica dos resultados da pesquisa.[38]

Limites de significância rigorosos em áreas específicas[editar | editar código-fonte]

Em áreas específicas como física de partículas ou indústria, a significância estatística geralmente é expressa em múltiplos dos desvios padrão () de uma distribuição normal com limites de significância estabelecidos em um nível muito mais rigoroso (por exemplo, ).[52][52] Por exemplo, a certeza da existência da partícula Bóson de Higgs foi baseada no critério , que corresponde ao p–valor de cerca de 1 em 3,5 milhões.[53][54] Em outras áreas de pesquisa científica como os estudos do genoma, níveis de significância tão baixos quanto não são incomuns.[55][56]

Especificamente na física de partículas, o padrão é usado para considerar o resultado significativo. O padrão traduz uma chance em 3,5 milhões de uma flutuação aleatória afetar o resultado, o que representa uma probabilidade de erro inferior a 0,00003% (nível de confiança superior a 99,99997%).[57] Este nível de certeza foi requerido para declarar a primeira detecção de ondas gravitacionais e garantir a descoberta de uma partícula consistente com o bóson de Higgs em dois experimentos independentes na Organização Europeia para a Pesquisa Nuclear (CERN).[58][59][60]

Limitações[editar | editar código-fonte]

Pesquisadores focam exclusivamente se seus resultados são estatisticamente significantes e se eles podem reportar dados que não são substanciais e replicáveis.[61][62] Há também uma diferença entre significância estatística e significância prática. Um estudo que se mostre estatisticamente significante não necessariamente é praticamente significante.[63]

Tamanho do efeito[editar | editar código-fonte]

Tamanho do efeito é uma medida da significância prática de um estudo.[64] Um resultado estatisticamente significante pode ter um efeito fraco. Para avaliar a significância da pesquisa do seu resultado, pesquisadores são encorajados sempre a reportar o tamanho do efeito junto com os p–valores. Uma medida de tamanho do efeito quantifica a força de um efeito, como a distância entre duas médias em unidades de desvio padrão, a correlação entre duas variáveis ou seus quadrados e outras medidas.[65]

Reprodutibilidade[editar | editar código-fonte]

Um resultado estatisticamente significante pode não ser fácil de ser reproduzido. Em particular, alguns resultados estatisticamente significantes serão de fato falsos positivos. Cada tentativa sem sucesso de reproduzir um resultado aumenta a crença que o resultado era um falso positivo.[66]

Controvérsia sobre uso excessivo em algumas publicações científicas[editar | editar código-fonte]

A partir dos anos 2010, algumas revistas começaram a questionar se o teste de significância e, particularmente, o limiar de estavam sendo muito usados como medidas primárias de validade de uma hipótese.[67] Algumas revistas encorajaram autores a fazer análises mais detalhadas que apenas um teste de significância estatístico. Por exemplo, em psicologia social, o Journal of Basic and Applied Social Psychology baniu o uso do teste de significância dos trabalhos publicados, exigindo que os autores usassem outras medidas para avaliar hipótese e impacto.[68][69]

Utilizações[editar | editar código-fonte]

Medicina[editar | editar código-fonte]

Na medicina, o uso do teste de significância pode ser relacionado a vários fatores como a aceitação de uma determinada substância para um tratamento de vírus ou de bactérias, as condições sobre os pacientes quanto ao risco para uma cirurgia, se é possível imunizar uma população, entre outros. Isto pode ser analisado a partir da aceitação ou da rejeição de uma hipótese dentro dos parâmetros de significância. Por exemplo, é possível comparar uma população saudável com uma população doente a partir de amostras de sangue de cada população. A amostra da população considerada saudável terá um comportamento diferente da amostra da população considerada doente, de modo que ambas as amostras possuem características estatísticas como desvio padrão, media, mediana e moda. Desta forma, pode–se aproximar as amostras de uma distribuição normal. Comparando as duas amostras, pode–se verificar a sobreposição das curvas normais. Isto é, pode–se verificar o quanto da população saudável pode se tornar doente devido à área crítica.[70]

Indústria[editar | editar código-fonte]

Na indústria, existem várias preocupações quanto ao custo de produção, a durabilidade, a aceitação de um determinado item, entre outros. Por exemplo, seja uma empresa que deseja verificar a susceptibilidade de uma bateria a impactos termo–elétricos. Existe uma probabilidade que pode levar a falha da bateria. Desta forma, testa–se se um modelo matemático geométrico será adequado para determinar uma variável aleatória que indique a quantidade de impactos suportado pela bateria. Para o teste, providencia–se ao acaso uma amostra de baterias. Supondo uma amostra de baterias, desenvolve–se um teste impondo a cada bateria um impacto termo-elétrico e observa–se em qual bateria irá ocorrer a falha. Desta maneira, é possível construir uma tabela de frequência. A partir dos dados coletados, inicia–se a análise sobre aceitar ou rejeitar a hipótese do modelo matemático geométrico.[71]

Agronegócio[editar | editar código-fonte]

Na agricultura, examina–se alguns modelos para plantar uma determinada espécie de alimento. Por exemplo, em uma lavoura é comum a incidência de insetos e de outros tipos de pragas. O controle das pragas tende a ser realizado por meio de pesticidas, que matam os insetos e não comprometem a colheita. A verificação do nível de pragas em uma lavoura pode permitir que um agricultor troque o pesticida atual por um pesticida mais barato. Se um agricultor constatar que ao usar um pesticida mais caro até 10% da lavoura contém pragas, ele continua utilizando o mesmo produto para eliminar as pragas. Entretanto, se um agricultor constatar que ao usar um pesticida mais caro mais de 10% da lavoura contém pragas, ele pode passar a utilizar um produto para eliminar as pragas mais barato. Em termos matemáticos, obtém–se uma amostra da lavoura e calcula–se os parâmetros para o teste de hipótese como a média . Então, o agricultor poderá economizar com pesticidas ao realizar um teste de hipóteses com um dado nível de significância para o qual a hipótese nula não seja rejeitada.[72]

Ver também[editar | editar código-fonte]

Referências

  1. «Conceitos Elementares de Estatística». Consultado em 1 de fevereiro de 2017 
  2. a b c Sirkin, R. Mark (2005). «Two-sample t tests». Statistics for the Social Sciences 3rd ed. Thousand Oaks, CA: SAGE Publications, Inc. pp. 271–316. ISBN 1-412-90546-X 
  3. a b Borror, Connie M. (2009). «Statistical decision making». The Certified Quality Engineer Handbook 3rd ed. Milwaukee, WI: ASQ Quality Press. pp. 418–472. ISBN 0-873-89745-5 
  4. Myers, Jerome L.; Well, Arnold D.; Lorch Jr, Robert F. (2010). «The t distribution and its applications». Research Design and Statistical Analysis: Third Edition 3rd ed. New York, NY: Routledge. pp. 124–153. ISBN 0-805-86431-8 
  5. Schlotzhauer, Sandra (2007). Elementary Statistics Using JMP (SAS Press) PAP/CDR ed. Cary, NC: SAS Institute. pp. 166–169. ISBN 1-599-94375-1 
  6. a b Gauvreau K, Pagano M. Why 5%? Nutrition 1994;10(1):93-4.
  7. a b Craparo, Robert M. (2007). «Significance level». In: Salkind, Neil J. Encyclopedia of Measurement and Statistics. 3. Thousand Oaks, CA: SAGE Publications. pp. 889–891. ISBN 1-412-91611-9 
  8. a b Sproull, Natalie L. (2002). «Hypothesis testing». Handbook of Research Methods: A Guide for Practitioners and Students in the Social Science 2nd ed. Lanham, MD: Scarecrow Press, Inc. pp. 49–64. ISBN 0-810-84486-9 
  9. Redmond, Carol; Colton, Theodore (2001). «Clinical significance versus statistical significance». Biostatistics in Clinical Trials. Col: Wiley Reference Series in Biostatistics 3rd ed. West Sussex, United Kingdom: John Wiley & Sons Ltd. pp. 35–36. ISBN 0-471-82211-6 
  10. Cumming, Geoff (2012). Understanding The New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis. New York, USA: Routledge. pp. 27–28 
  11. Krzywinski, Martin; Altman, Naomi (30 de outubro de 2013). «Points of significance: Significance, P values and t-tests». Nature Publishing Group. Nature Methods. 10 (11): 1041–1042. doi:10.1038/nmeth.2698. Consultado em 3 de julho de 2014 
  12. Sham, Pak C.; Purcell, Shaun M (17 de abril de 2014). «Statistical power and significance testing in large-scale genetic studies». Nature Publishing Group. Nature Reviews Genetics. 15 (5): 335–346. doi:10.1038/nrg3706. Consultado em 3 de julho de 2014 
  13. Johnson, Valen E. (9 de outubro de 2013). «Revised standards for statistical evidence». National Academies of Science. Proceedings of the National Academy of Sciences. 110: 19313–19317. doi:10.1073/pnas.1313476110. Consultado em 3 de julho de 2014 
  14. Altman, Douglas G. (1999). Practical Statistics for Medical Research. New York, USA: Chapman & Hall/CRC. 167 páginas. ISBN 978-0412276309 
  15. a b Devore, Jay L. (2011). Probability and Statistics for Engineering and the Sciences 8th ed. Boston, MA: Cengage Learning. pp. 300–344. ISBN 0-538-73352-7 
  16. a b Paes, Ângela Tavares (1998). «Itens Essenciais em Bioestatística». Arquivos Brasileiros de Cardiologia. 71 (4) 
  17. Babbie, Earl R. (2013). «The logic of sampling». The Practice of Social Research 13th ed. Belmont, CA: Cengage Learning. pp. 185–226. ISBN 1-133-04979-6 
  18. Faherty, Vincent (2008). «Probability and statistical significance». Compassionate Statistics: Applied Quantitative Analysis for Social Services (With exercises and instructions in SPSS) 1st ed. Thousand Oaks, CA: SAGE Publications, Inc. pp. 127–138. ISBN 1-412-93982-8 
  19. McKillup, Steve (2006). «Probability helps you make a decision about your results». Statistics Explained: An Introductory Guide for Life Scientists 1st ed. Cambridge, United Kingdom: Cambridge University Press. pp. 44–56. ISBN 0-521-54316-9 
  20. Samohyl, Robert Wayne (2009). Controle Estatístico de Qualidade. [S.l.]: Elsevier. 76 páginas 
  21. «Arbuthnot's Data on Male and Female Birth Ratios in London from 1629 – 1710». Consultado em 1 de fevereiro de 2017 
  22. a b c Quinn, Geoffrey R.; Keough, Michael J. (2002). Experimental Design and Data Analysis for Biologists 1st ed. Cambridge, UK: Cambridge University Press. pp. 46–69. ISBN 0-521-00976-6 
  23. Cumming, Geoff (2011). «From null hypothesis significance to testing effect sizes». Understanding The New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis. Col: Multivariate Applications Series. East Sussex, United Kingdom: Routledge. pp. 21–52. ISBN 0-415-87968-X 
  24. a b Fisher, Ronald A. (1925). Statistical Methods for Research Workers. Edinburgh, UK: Oliver and Boyd. 43 páginas. ISBN 0-050-02170-2 
  25. Poletiek, Fenna H. (2001). «Formal theories of testing». Hypothesis-testing Behaviour. Col: Essays in Cognitive Psychology 1st ed. East Sussex, United Kingdom: Psychology Press. pp. 29–48. ISBN 1-841-69159-3 
  26. "Critical tests of this kind may be called tests of significance, and when such tests are available we may discover whether a second sample is or is not significantly different from the first." — R. A. Fisher (1925). Statistical Methods for Research Workers, Edinburgh: Oliver and Boyd, 1925, p.43.
  27. Felsenstein, Joseph. «Confidence Intervals, t Tests, p Values» (PDF). Department of Genome Sciences and Department of Biology – University of Washington. Consultado em 1 de fevereiro de 2017 
  28. Neyman, J.; Pearson, E.S. (1933). «The testing of statistical hypotheses in relation to probabilities a priori». Mathematical Proceedings of the Cambridge Philosophical Society. 29: 492–510. doi:10.1017/S030500410001152X 
  29. a b Dávila, Víctor Hugo Lachos. «Teste de Hipóteses» (PDF). Universidade Estadual de Campinas (UNICAMP). p. 3. Consultado em 13 de abril de 2017 
  30. «Introdução à Inferência Estatística» (PDF). Universidade Federal de São Carlos (UFSCar). p. 79. Consultado em 4 de maio de 2017 
  31. a b Schlotzhauer, Sandra (2007). Elementary Statistics Using JMP (SAS Press) PAP/CDR ed. Cary, NC: SAS Institute. pp. 166–169. ISBN 1-599-94375-1 
  32. a b "Conclusions about statistical significance are possible with the help of the confidence interval. If the confidence interval does not include the value of zero effect, it can be assumed that there is a statistically significant result." «Confidence Interval or P-Value?». doi:10.3238/arztebl.2009.0335 
  33. a b StatNews #73: Overlapping Confidence Intervals and Statistical Significance
  34. Fisher, R (1955). «Statistical Methods and Scientific Induction» (PDF). Journal of the Royal Statistical Society, Series B. 17 (1): 69–78 
  35. Ehlers, Ricardo S. (2007). «Inferência Bayesiana» (PDF). Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo (ICMC / USP). Consultado em 15 de maio de 2017 
  36. Magalhães, Marcos Nascimento; Lima, Antonio Carlos Pedroso (2007). Noções de Probabilidade e Estatística. São Paulo: EdUSP. 248 páginas 
  37. CINELLI, CARLOS LEONARDO KULNIG (2012). «INFERÊNCIA ESTATÍSTICA E A PRÁTICA ECONÔMICA NO BRASIL: OS (AB)USOS DOS TESTES DE SIGNIFICÂNCIA» (PDF). UNIVERSIDADE DE BRASÍLIA. pp. 17 – 18. Consultado em 2 de maio de 2017 
  38. a b Cinelli, Carlos Leonardo Kulnig. «Inferência Estatística e Prática Econômica no Brasil: Os (ab)Usos dos Testes de Significância» (PDF) 
  39. Lara, Idemauro Antonio Rodrigues de. «Teste de Hipótese – Notas de Aula» (PDF). Escola Superior de Agricultura Luiz de Queiroz da Universidade de São Paulo (ESALQ / USP). Consultado em 1 de fevereiro de 2017 
  40. a b c d e Bussab, Wilton de O. (2012). Estatística Básica. São Paulo: Saraiva. 339 páginas 
  41. a b c d Spiegel, Murray R. (2006). Estatística. São Paulo: Pearson. 260 páginas 
  42. Spiegel, Murray R. (2006). Estatística. São Paulo: Pearson. 261 páginas 
  43. Reis, Marcelo Menezes. «Poder do Teste – Poder do Teste e Tamanho de Amostra para Testes de Hipóteses» (PDF). Universidade Federal de Santa Catarina (UFSC). Consultado em 15 de maio de 2017 
  44. Meier, Kenneth J.; Brudney, Jeffrey L.; Bohte, John (2011). Applied Statistics for Public and Nonprofit Administration 3rd ed. Boston, MA: Cengage Learning. pp. 189–209. ISBN 1-111-34280-6 
  45. Healy, Joseph F. (2009). The Essentials of Statistics: A Tool for Social Research 2nd ed. Belmont, CA: Cengage Learning. pp. 177–205. ISBN 0-495-60143-8 
  46. McKillup, Steve (2006). Statistics Explained: An Introductory Guide for Life Scientists 1st ed. Cambridge, UK: Cambridge University Press. pp. 32–38. ISBN 0-521-54316-9 
  47. Health, David (1995). An Introduction To Experimental Design And Statistics For Biology 1st ed. Boston, MA: CRC press. pp. 123–154. ISBN 1-857-28132-2 
  48. Myers, Jerome L.; Well, Arnold D.; Lorch, Jr., Robert F. (2010). «Developing fundamentals of hypothesis testing using the binomial distribution». Research design and statistical analysis 3rd ed. New York, NY: Routledge. pp. 65–90. ISBN 0-805-86431-8 
  49. Hinton, Perry R. (2010). «Significance, error, and power». Statistics explained 3rd ed. New York, NY: Routledge. pp. 79–90. ISBN 1-848-72312-1 
  50. Viali, Lorí. «Testes de hipóteses» (PDF). Universidade Federal do Rio Grande do Sul (UFRGS). Consultado em 15 de maio de 2017 
  51. Hubbard, Raymond; Bayarri, M. J. (2003). «P Values are not Error Probabilities» (PDF) 
  52. a b Vaughan, Simon (2013). Scientific Inference: Learning from Data 1st ed. Cambridge, UK: Cambridge University Press. pp. 146–152. ISBN 1-107-02482-X 
  53. Bracken, Michael B. (2013). Risk, Chance, and Causation: Investigating the Origins and Treatment of Disease 1st ed. New Haven, CT: Yale University Press. pp. 260–276. ISBN 0-300-18884-6 
  54. Franklin, Allan (2013). «Prologue: The rise of the sigmas». Shifting Standards: Experiments in Particle Physics in the Twentieth Century 1st ed. Pittsburgh, PA: University of Pittsburgh Press. pp. Ii–Iii. ISBN 0-822-94430-8 
  55. Clarke, GM; Anderson, CA; Pettersson, FH; Cardon, LR; Morris, AP; Zondervan, KT (6 de fevereiro de 2011). «Basic statistical analysis in genetic case-control studies». Nature Protocols. 6 (2): 121–33. doi:10.1038/nprot.2010.182. PMC 3154648Acessível livremente. PMID 21293453 
  56. Barsh, GS; Copenhaver, GP; Gibson, G; Williams, SM (5 de julho de 2012). «Guidelines for Genome-Wide Association Studies». PLoS Genetics. 8 (7): e1002812. doi:10.1371/journal.pgen.1002812. PMC 3390399Acessível livremente. PMID 22792080 
  57. Heuer, Rolf (2012). «Une Fin D'Année Pleine de Suspense». Bulletin Hebdomadaire du CERN. Consultado em 24 de janeiro de 2017 
  58. LIGO Scientific Collaboration, Virgo Collaboration (2016), «Observation of Gravitational Waves from a Binary Black Hole Merger», Physical Review Letters, 116 (6), arXiv:1602.03837Acessível livremente, doi:10.1103/PhysRevLett.116.061102, PMID 26918975 
  59. Abbott, B. P. (2016). «Observation of Gravitational Waves from a Binary Black Hole Merger». Physical Review Letters. Consultado em 24 de janeiro de 2017 
  60. «The Higgs Boson». Organização Europeia para a Pesquisa Nuclear (CERN). Consultado em 15 de maio de 2017 
  61. Carver, Ronald P. (1978). «The Case Against Statistical Significance Testing». Harvard Educational Review. 48: 378–399 
  62. Ioannidis, John P. A. (2005). «Why most published research findings are false». PLoS Medicine. 2: e124. doi:10.1371/journal.pmed.0020124. PMC 1182327Acessível livremente. PMID 16060722 
  63. Hojat, Mohammadreza; Xu, Gang (2004). «A Visitor's Guide to Effect Sizes». Advances in Health Sciences Education 
  64. Hojat, Mohammadreza; Xu, Gang (2004). «A Visitor's Guide to Effect Sizes». Advances in Health Sciences Education 
  65. Pedhazur, Elazar J.; Schmelkin, Liora P. (1991). Measurement, Design, and Analysis: An Integrated Approach Student ed. New York, NY: Psychology Press. pp. 180–210. ISBN 0-805-81063-3 
  66. Stahel, Werner (2016). «Statistical Issue in Reproducibility». Principles, Problems, Practices, and Prospects Reproducibility: Principles, Problems, Practices, and Prospects: 87-114 
  67. «CSSME Seminar Series: The argument over p-values and the Null Hypothesis Significance Testing (NHST) paradigm » School of Education » University of Leeds». www.education.leeds.ac.uk. Consultado em 1 de dezembro de 2016 
  68. Woolston, Chris (5 de março de 2015). «Psychology journal bans P values». Nature. 519 (7541): 9–9. doi:10.1038/519009f 
  69. Siegfried, Tom (17 de março de 2015). «P value ban: small step for a journal, giant leap for science». Science News. Consultado em 1 de dezembro de 2016 
  70. Magalhães, Marcos Nascimento; Lima, Antonio Carlos Pedroso (2007). Noções de Probabilidade e Estatística. São Paulo: EdUSP. 243 páginas 
  71. Magalhães, Marcos Nascimento; Lima, Antonio Carlos Pedroso de (2007). Noções de Probabilidade e Estatística. São Paulo: EdUSP. 244 páginas 
  72. «Testes de Hipótese» (PDF). UFSCAR. p. 1. Consultado em 20 de fevereiro de 2017 

Leitura adicional[editar | editar código-fonte]

  • ZILIAK, Stephen Thomas; MCCLOSKEY, Deirdre N. The cult of statistical significance: How the standard error costs us jobs, justice, and lives. University of Michigan Press, 2008.
  • THOMPSON, Bruce. The “significance” crisis in psychology and education.The Journal of Socio-Economics, v. 33, n. 5, p. 607-613, 2004.
  • FRICK, Robert W. Statistical Significance: Rationale, Validity and Utility.Journal of the American Statistical Association, v. 93, n. 441, p. 406-407, 1998.
  • KLEIN, Donald F. Beyond significance testing: Reforming data analysis methods in behavioral research. American Journal of Psychiatry, v. 162, n. 3, p. 643-a-644, 2005.
  • NUZZO, Regina. Statistical errors. Nature, v. 506, n. 7487, p. 150, 2014.
  • COHEN, Jacob. The earth is round (p<. 05): Rejoinder. 1995.

Ligações externas[editar | editar código-fonte]