Significância estatística

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa

A significância estatística é considerada um procedimento para verificar a discrepância de uma hipótese estatística em relação aos dados observados, utilizando uma medida de evidência (p-valor).[1] Este procedimento foi definido por Ronald Fisher no início do século XX como teste de significância. Entretanto, cabe notar que o termo significância não implica importância e o termo significância estatística não quer dizer significância prática. Por exemplo, o termo significância clínica se refere à importância prática do efeito de um tratamento.[2][3][4]

O nível de significância é a probabilidade de rejeitar a hipótese nula quando ela é verdadeira (conhecido como erro do tipo I).[5] Em testes de hipóteses estatísticos, diz-se que há significância estatística ou que o resultado é estatisticamente significante quando o p-valor observado é menor que o nível de significância definido para o estudo.[2][3] O nível de significância é geralmente determinado pelo pesquisador antes da coleta dos dados e tradicionalmente fixado em 0,05 ou menos, dependendo da área de estudo.[6][7][8] Em muitas áreas de estudo, resultados com nível de significância de 0,05 (probabilidade de erro de 5%) são considerados estatisticamente relevantes.[9][10][11]

O p-valor (nível descritivo ou probabilidade de significância) é a probabilidade de se obter uma estatística de teste igual ou mais extrema que a estatística observada a partir de uma amostra de uma população quando a hipótese nula é verdadeira. Em outras palavras, o p-valor é o menor nível de significância para o qual se rejeita a hipótese nula. Por exemplo, a hipótese nula é rejeitada a 5% quando o p-valor é menor que 5%.[12]

Quando se seleciona uma amostra de uma população em um experimento, sempre há possibilidade que um efeito observado ocorra devido a um erro amostral (diferença entre a estimativa da amostra e o parâmetro da população).[13][14] No entanto, quando o p-valor do efeito for menor que o nível de significância, pode-se concluir que o efeito reflete as características de toda a população e, consequentemente, rejeitar a hipótese nula.[2][15]

História[editar | editar código-fonte]

Retrato de Ronald Fisher.

Em 1710, John Arbuthnot (1667 — 1735) fez a primeira tentativa de análise de teste de hipóteses com cálculos probabilísticos.[16] Em An Argument for Divine Providence, Taken From the Constant Regularity Observed in the Births of Both Sexes, Arbuthnot usou séries de dados temporais da proporção de nascimentos de homens e da proporção de nascimentos de mulheres em Londres entre 1629 e 1710 para realizar o primeiro teste de significância por meio da comparação de dados observados e da hipótese nula.[17]

Em 1925, Ronald Fisher (1890 — 1962) avançou o conceito de teste de hipóteses. Em Statistical Methods for Research Workers, Fisher chamou os testes de hipóteses de testes de significância, sugeriu a probabilidade de 0,05 como o nível de corte para rejeitar a hipótese nula e aplicou essa probabilidade a uma distribuição normal com um teste bicaudal.[18][19]

Em Statistical Methods for Research Workers, Fisher também introduziu o valor aproximado de 1,96 para o 97,5-percentil de uma distribuição normal usado em probabilidade e estatística e popularizou o conceito de p-valor.[21] Apesar da indicação da probabilidade de 0,05, Fisher não pretendia que o nível de significância fosse fixo. O estatístico inglês sugeriu que os níveis de significância fossem estabelecidos de acordo com circunstâncias específicas.[22]

Em 1933, Jerzy Neyman e Egon Pearson aprimoraram o teste de significância, denominaram o nível de corte de nível de significância e recomendaram que esse valor fosse determinado antes da coleta dos dados.[22][23]

Conceitos relacionados[editar | editar código-fonte]

Teste de hipóteses[editar | editar código-fonte]

Ver artigo principal: Teste de hipóteses

O teste de hipóteses é um procedimento estatístico baseado na análise de uma amostra por meio da teoria das probabilidades, utilizado para avaliar determinados parâmetros desconhecidos em uma população. O teste de hipóteses propõe uma hipótese para a relação estatística entre os dois conjuntos de dados comparados. Esta comparação é considerada estatisticamente significante se a relação entre os conjuntos de dados rejeitar a hipótese nula.[24]

Em um teste de hipóteses, a hipótese nula é a hipótese assumida como verdadeira para a construção do teste, a hipótese alternativa é a hipótese considerada quando a hipótese nula não tem evidência estatística, o erro do tipo I é a probabilidade de se rejeitar a hipótese nula quando ela é verdadeira e o erro do tipo II é a probabilidade de não rejeitar a hipótese alternativa quando ela é falsa.[25]

Nível de significância[editar | editar código-fonte]

O nível de significância é o limite para o p-valor, abaixo do qual assume-se que a hipótese nula é falsa. O p-valor é a probabilidade de se obter uma estatística de teste igual ou mais extrema que a estatística observada a partir de uma amostra de uma população quando ela é verdadeira. Isto significa que o nível de significância é a probabilidade de se rejeitar incorretamente a hipótese nula quando ela é verdadeira. O nível de significância corresponde ao erro do tipo I, cujos valores mais comuns são 5% e 1%.[26]

Nível de confiança[editar | editar código-fonte]

O nível de confiança é a probabilidade de não rejeitar a hipótese nula quando ela é verdadeira. Em relação ao intervalo de confiança, o nível de confiança é a frequência com a qual o intervalo observado contém o valor correto para o parâmetro de interesse quando o experimento é repetido várias vezes. Por exemplo, o nível de confiança de 95% significa que 95% dos intervalos de confiança construídos a partir das amostras aleatórias contêm o valor verdadeiro do parâmetro. Em relação ao teste de hipóteses, o nível de confiança é o complemento do nível de significância. Isto é, um intervalo de confiança de 95% reflete um nível de significância de 5%.[27][28]

Método de Neyman-Pearson[editar | editar código-fonte]

Ver artigo principal: Método de Neyman–Pearson
Relação entre os erros do tipo I e do tipo II associados às distribuições das hipóteses nula e alternativa.

Há alguns métodos para verificar a significância como o método de Fisher que reporta o p-valor e o método de Jeffreys que utiliza a probabilidade a posteriori com base na probabilidade a priori pela distribuição de Cauchy.[29][30]

O método clássico e não unânime é o método de Neyman-Pearson, pelo qual em testes de hipóteses formula-se a hipótese nula a ser testada e realizam-se os testes para rejeitá-la ou não rejeitá-la. Neste sentido, há quatro situações possíveis:[31][32]

Hipótese nula é verdadeira Hipótese nula é falsa
Hipótese nula é rejeitada Erro do tipo I Não há erro
Hipótese nula não é rejeitada Não há erro Erro do tipo II

Especificamente, o erro do tipo I (também chamado de falso positivo) ocorre quando chega-se a um resultado que aconteceu por acaso, apesar de ter significância estatística. Quando realizar o teste de hipótese, o pesquisador deve tentar maximizar o poder de uma dada significância. Entretanto, o pesquisador precisa reconhecer que o melhor resultado possível é um equilíbrio entre significância e poder (entre o erro do tipo I e o erro do tipo II). O lema de Neyman-Pearson consiste justamente em demonstrar as condições necessárias e suficientes para o teste de hipóteses mais poderoso.[33]

Seja uma amostra aleatória com função densidade ou distribuição de probabilidade , com . Sejam as hipóteses e seja a constante para o nível de significância . Então, o teste é definido como o teste mais poderoso para o nível de significância para testar a hipótese nula contra a hipótese alternativa .[34]

Exemplos[editar | editar código-fonte]

Fábrica de grãos[editar | editar código-fonte]

Seja uma fábrica qualquer que produz um tipo de grão e cujas máquinas podem encher pacotes para serem vendidos com uma distribuição normal de média e variância sempre igual a . As regulagens das máquinas estão programadas para encher os pacotes na fabricação com uma média . Para verificar se há falta de regulagem nas máquinas (isto é, se ), periodicamente se obtém uma amostra de 16 pacotes. Se em uma dessas amostras for observada uma média , será necessário regular as máquinas?[35]

Considerando o peso de cada pacote, tem-se que . Neste caso, as hipóteses são . Considerando a variância para a média de 14 pacotes, tem-se que para todo , em que o desvio padrão de é . Fixando-se o nível de significância , tem-se que deve ser rejeitada quando for pequena ou grande demais.[35]

Região crítica e valor observado do teste de hipóteses para o exemplo Fábrica de grãos

A partir da curva normal padronizada, obtém-se os scores e :

[35]

Portanto, a região crítica é definida como .[35] Neste problema, . Portanto, como não pertence a região crítica, não deve ser rejeitada. Lembrando que a região de aceitação é o conjunto de valores do teste estatístico para o qual a hipótese nula não é rejeitada e a região de rejeição ou a região crítica é o conjunto de valores do teste estatístico para o qual a hipótese nula é rejeitada.[35]

Lançamento de moedas[editar | editar código-fonte]

Se uma moeda é honesta, qual a probabilidade de cair cara entre 40 e 60 vezes em 100 lançamentos?[36]

Para a probabilidade de cair cara para os 100 lances, a média e o desvio padrão . [36]

A partir dos scores de e , obtém-se:

Região crítica e valor observado do teste de hipóteses para o exemplo Lançamento de moedas

.[36]

Logo, a probabilidade desejada é igual a área sob a curva normal padronizada entre e . Por meio da tabela padronizada normal, tem-se que a área entre e é igual a .[36]

Portanto, sendo o número de caras esperado em 100 lançamentos e estabelecendo como hipóteses, onde é a hipótese nula representando uma moeda honesta e a hipótese alternativa representando uma moeda desonesta, temos que a probabilidade de se rejeitar a hipótese nula quando ela é verdadeira é a área total da curva normal menos a probabilidade do número de lançamentos estar entre 40 e 60. Isto é, . Logo, a probabilidade de se rejeitar a hipótese nula quando ela é verdadeira é . A partir da probabilidade de , define-se o nível de significância de .[37]

Relação com nível de significância e intervalo de confiança[editar | editar código-fonte]

Em um teste bicaudal, o nível de rejeição é particionado entre os dois lados da distribuição amostral e responde por apenas 5% da área abaixo da curva.

A significância estatística está relacionada ao nível de significância, que é a probabilidade de rejeitar a hipótese nula quando ela é verdadeira (erro do tipo I). Em um teste hipotético com nível de significância igual a 5%, em que fosse possível repetir um número muito grande de amostras para calcular a média, a hipótese nula seria rejeitada quando ela fosse verdadeira em aproximadamente 5% das amostras. Em um experimento real, em que é possível coletar somente uma amostra, espera-se que a amostra seja uma das 95% para as quais a hipótese nula é falsa.[6][7][8]

É assim que tem-se a confiança do resultado. Quando se calcula um intervalo de confiança de 95% (equivalente a um erro do tipo I de 5%), tem-se a confiança de que o intervalo contém o parâmetro estimado. Entretanto, quando reporta-se um intervalo, o parâmetro populacional desconhecido está dentro ou fora deste intervalo. Não existe probabilidade deste intervalo conter o parâmetro populacional.[27][28]

É possível escolher um nível de significância de 5% e calcular um valor crítico de um parâmetro (por exemplo, a média), de modo que a probabilidade do parâmetro exceda o valor crítico dada a hipótese nula verdadeira ao nível de 5%. Se o valor estatístico exceder o valor crítico, o resultado será significante ao nível de 5%. Se o nível de significância for menor, a probabilidade do valor estatístico ser mais extremo que o valor crítico também será menor. Então, um resultado significante ao nível de 1% é mais significante que um resultado significante ao nível de 5%. No entanto, um teste ao nível de significância de 1% é mais susceptível de ter o erro do tipo II que um teste ao nível de significância de 5%. Portanto, terá menos poder estatístico.[38]

Relação com teste de hipóteses[editar | editar código-fonte]

Em um teste bicaudal, a região de rejeição para um nível de significância de 0,05 é dividida em ambas as extremidades da distribuição amostral e corresponde a 5% da área sob a curva (áreas brancas).

A significância estatística desempenha um papel fundamental em testes de hipóteses estatísticos, sendo usada para determinar se a hipótese nula deve ou não deve ser rejeitada. Lembrando que a hipótese nula é a suposição padrão de que nada aconteceu ou de que nada mudou.[39] Para a hipótese nula ser rejeitada, um resultado observado precisa ser estatisticamente significante. Isto é, o p-valor precisa ser menor que o nível de significância pré-estabelecido.[12]

Para determinar se o resultado é estatisticamente significante, o pesquisador calcula o p-valor, a probabilidade de observar um efeito dado que a hipótese nula é verdadeira.[40] A hipótese nula é rejeitada se o p-valor for menor que um nível de significância pré-determinado . O nível de significância é a probabilidade de rejeitar a hipótese nula quando que ela é verdadeira (erro do tipo I). Então, é geralmente estabelecido em ou abaixo de 5%.[26]

Por exemplo, quando é estabelecido em 5% (probabilidade de erro do tipo I é 5%), um resultado estatisticamente significante é aquele em que o p-valor observado é menor que 5%.[41][42] Quando são retirados dados de uma população, isto significa que a região de rejeição compreende 5% da distribuição amostral. Estes 5% podem ser alocados para um lado da distribuição como em um teste unicaudal ou repartidos para os dois lados da distribuição como em um teste bicaudal, com cada cauda (região de rejeição) contendo 2,5% da distribuição.[43]

O uso de um teste unicaudal depende se a questão de pesquisa ou a hipótese alternativa especificam uma única direção. Por exemplo, perguntar se um grupo de objetos é mais pesado que outro ou se o desempenho de estudantes em uma tarefa é melhor que em outra.[44] Nestes casos, um teste bicaudal também pode ser utilizado. Entretanto, o teste bicaudal será menos poderoso que o teste unicaudal porque a região de rejeição para o teste unicaudal é concentrada em uma extremidade da distribuição nula e tem o dobro do tamanho (5% versus 2,5%) de cada região de rejeição para o teste bicaudal. Consequentemente, a hipótese nula pode ser rejeitada com um resultado menos extremo se um teste unicaudal for utilizado.[45] No entanto, o teste unicaudal é mais poderoso que o teste bicaudal apenas se a direção especificada ou a hipótese alternativa forem verdadeiras. Se a direção especificada ou a hipótese alternativa forem falsas, então o teste unicaudal não tem poder.[46]

Os testes de hipóteses são constituídos a partir de alternativas que são testadas. Se uma amostra é selecionada de uma população, é possível tirar conclusões sobre esta amostra por meio da aplicação da teoria de probabilidades. Por exemplo, determinar sua veracidade em relação a composição da população, distinguir entre diferentes populações das quais a amostra pode ter sido retirada, auxiliar na comprovação de uma teoria ou no remodelamento dos métodos dos testes aplicados para sua comprovação, determinar limites estatísticos para uma população (doenças, intenções de voto, salário, entre outros), checar a confiabilidade de um estudo ou contribuir para qualquer tomada de decisão simples, em que seja necessário um rigor estatístico para a comprovação da escolha.[24]

É importante ressaltar que os p-valores de Fisher são filosoficamente semelhantes aos erros do tipo I de Neyman-Pearson. A diferença entre eles não é trivial e reflete a diferença fundamental entre as ideias de Fisher sobre os testes de significância com inferência indutiva e o teste de hipóteses de Neyman-Pearson com procedimento indutivo. Entretanto, muitos livros sobre análise estatística em diferentes áreas de estudo, tanto na graduação quando na pós-graduação abordam o assunto como se fossem um método único de inferência estatística.[47]

Hoje o método considerado clássico é o teste de hipótese de Neyman-Pearson, embora muitas vezes ele seja apresentado com os testes de significância de Fisher. Esta mistura com mais elementos de Fisher do que elementos de Neyman-Pearson e com interpretação bayseana de alguns resultados pode resultar na confusão entre medidas de erro procedimentais, probabilidades frequentistas e probabilidades a posteriori de a hipótese nula ser verdadeira e significância estatística e significância científica dos resultados da pesquisa.[33]

Limites de significância rigorosos em áreas específicas[editar | editar código-fonte]

Em áreas específicas como física de partículas ou indústria, a significância estatística geralmente é expressa em múltiplos dos desvios padrão () de uma distribuição normal com limites de significância estabelecidos em um nível muito mais rigoroso (por exemplo, ).[48][48] Por exemplo, a certeza da existência da partícula Bóson de Higgs foi baseada no critério , que corresponde ao p-valor de cerca de 1 em 3,5 milhões.[49][50] Em outras áreas de pesquisa científica como os estudos do genoma, níveis de significância tão baixos quanto não são incomuns.[51][52]

Especificamente na física de partículas, o padrão é usado para considerar o resultado significativo. O padrão traduz uma chance em 3,5 milhões de uma flutuação aleatória afetar o resultado, o que representa uma probabilidade de erro inferior a 0,00003% (nível de confiança superior a 99,99997%).[53] Este nível de certeza foi requerido para declarar a primeira detecção de ondas gravitacionais e garantir a descoberta de uma partícula consistente com o bóson de Higgs em dois experimentos independentes na Organização Europeia para a Pesquisa Nuclear (CERN).[54]

Limitações[editar | editar código-fonte]

Pesquisadores focam exclusivamente se seus resultados são estatisticamente significantes e se eles podem reportar dados que não são substanciais e replicáveis.[55][56] Há também uma diferença entre significância estatística e significância (ou importância) prática. Um estudo que se mostre estatisticamente significante não necessariamente é praticamente significante, isto é, a significância estatística não implica em resultados práticos significantemente diferentes.[57] Por exemplo, em um teste estatístico, um número grande de observações pode fazer com que um resultado minimamente destoante da hipótese nula seja estatísticamente significante, mas que na prática não implica em uma diferença tão importante para que a hipótese nula seja rejeitada.[58]

Tamanho do efeito[editar | editar código-fonte]

Tamanho do efeito é uma medida da significância prática de um estudo.[59] Um resultado estatisticamente significante pode ter um efeito fraco. Para avaliar a significância da pesquisa do seu resultado, pesquisadores são encorajados sempre a reportar o tamanho do efeito junto com os p-valores. Uma medida de tamanho do efeito quantifica o grau em que o efeito está presente na população em estudo.[60] A distância entre duas médias em unidades de desvio padrão, a correlação entre duas variáveis ou seus quadrados são alguns exemplos de medidas do tamanho do efeito.[61]

Reprodutibilidade[editar | editar código-fonte]

Um resultado estatisticamente significante pode não ser fácil de ser reproduzido. Em particular, alguns resultados estatisticamente significantes serão de fato falsos positivos. Cada tentativa sem sucesso de reproduzir um resultado aumenta a crença que o resultado era um falso positivo.[62]

Controvérsia sobre uso excessivo[editar | editar código-fonte]

A partir dos anos 2010, algumas publicações começaram a questionar se o teste de significância e, particularmente, o limiar de estava sendo muito usado como medida primária de validade de uma hipótese.[63] Algumas revistas chegaram a encorajar os autores a fazer análises mais detalhadas não usando apenas o teste de significância estatística e em alguns casos, como o Journal of Basic and Applied Social Psychology, o uso do teste de significância foi banido dos trabalhos publicados, o que exigiu que os autores usassem outras medidas para avaliar hipótese e impacto.[64][65]

Utilizações[editar | editar código-fonte]

Medicina[editar | editar código-fonte]

Na medicina, o uso do teste de significância pode ser relacionado a vários fatores como a aceitação de uma determinada substância para um tratamento de vírus ou de bactérias, ao risco de morte em uma cirurgia dadas as condições do paciente, se é possível imunizar uma população, entre outros. Isto pode ser analisado a partir da aceitação ou da rejeição de uma hipótese dentro dos parâmetros de significância. Por exemplo, é possível comparar uma população saudável com uma população doente a partir de amostras de sangue de cada população. A amostra da população considerada saudável terá um comportamento diferente da amostra da população considerada doente, de modo que ambas as amostras possuem características estatísticas como desvio padrão, media, mediana e moda. Desta forma, pode-se aproximar as amostras de uma distribuição normal. Comparando as duas amostras, pode-se verificar a sobreposição das curvas normais. Isto é, pode-se verificar o quanto da população saudável pode se tornar doente devido à área crítica.[66]

Indústria[editar | editar código-fonte]

Na indústria, existem várias preocupações quanto ao custo de produção, a durabilidade, a aceitação de um determinado item, entre outros. Por exemplo, seja uma empresa que deseja verificar a susceptibilidade de uma bateria a impactos termo-elétricos. Existe uma probabilidade que pode levar a falha da bateria. Desta forma, testa-se se um modelo matemático geométrico será adequado para determinar uma variável aleatória que indique a quantidade de impactos suportado pela bateria. Para o teste, providencia-se ao acaso uma amostra de baterias. Supondo uma amostra de baterias, desenvolve-se um teste impondo a cada bateria um impacto termo-elétrico e observa-se em qual bateria irá ocorrer a falha. Desta maneira, é possível construir uma tabela de frequência. A partir dos dados coletados, inicia-se a análise sobre aceitar ou rejeitar a hipótese do modelo matemático geométrico.[67]

Agronegócio[editar | editar código-fonte]

Na agricultura, examina-se alguns modelos para plantar uma determinada espécie de alimento. Por exemplo, em uma lavoura é comum a incidência de insetos e de outros tipos de pragas. O controle das pragas tende a ser realizado por meio de pesticidas, que matam os insetos e não comprometem a colheita. A verificação do nível de pragas em uma lavoura pode permitir que um agricultor troque o pesticida atual por um pesticida mais barato. Se um agricultor constatar que ao usar um pesticida mais caro até 10% da lavoura contém pragas, ele continua utilizando o mesmo produto para eliminar as pragas. Entretanto, se um agricultor constatar que ao usar um pesticida mais caro mais de 10% da lavoura contém pragas, ele pode passar a utilizar um produto para eliminar as pragas mais barato. Em termos matemáticos, obtém-se uma amostra da lavoura e calcula-se os parâmetros para o teste de hipótese como a média . Então, o agricultor poderá economizar com pesticidas ao realizar um teste de hipóteses com um dado nível de significância para o qual a hipótese nula não seja rejeitada.[68]

Ver também[editar | editar código-fonte]

Referências

  1. «Conceitos Elementares de Estatística». Consultado em 1 de fevereiro de 2017 
  2. a b c Sirkin, R. Mark (2005). «Two-sample t tests». Statistics for the Social Sciences 3rd ed. Thousand Oaks, CA: SAGE Publications, Inc. pp. 271–316. ISBN 1-412-90546-X 
  3. a b Borror, Connie M. (2009). «Statistical decision making». The Certified Quality Engineer Handbook 3rd ed. Milwaukee, WI: ASQ Quality Press. pp. 418–472. ISBN 0-873-89745-5 
  4. Myers, Jerome L.; Well, Arnold D.; Lorch Jr, Robert F. (2010). «The t distribution and its applications». Research Design and Statistical Analysis: Third Edition 3rd ed. New York, NY: Routledge. pp. 124–153. ISBN 0-805-86431-8 
  5. Schlotzhauer, Sandra (2007). Elementary Statistics Using JMP (SAS Press) PAP/CDR ed. Cary, NC: SAS Institute. pp. 166–169. ISBN 1-599-94375-1 
  6. a b Gauvreau K, Pagano M. Why 5%? Nutrition 1994;10(1):93-4.
  7. a b Craparo, Robert M. (2007). «Significance level». In: Salkind, Neil J. Encyclopedia of Measurement and Statistics. 3. Thousand Oaks, CA: SAGE Publications. pp. 889–891. ISBN 1-412-91611-9 
  8. a b Sproull, Natalie L. (2002). «Hypothesis testing». Handbook of Research Methods: A Guide for Practitioners and Students in the Social Science 2nd ed. Lanham, MD: Scarecrow Press, Inc. pp. 49–64. ISBN 0-810-84486-9 
  9. Krzywinski, Martin; Altman, Naomi (30 de outubro de 2013). «Points of significance: Significance, P values and t-tests». Nature Publishing Group. Nature Methods. 10 (11): 1041–1042. doi:10.1038/nmeth.2698. Consultado em 3 de julho de 2014 
  10. Johnson, Valen E. (9 de outubro de 2013). «Revised standards for statistical evidence». National Academies of Science. Proceedings of the National Academy of Sciences. 110: 19313–19317. doi:10.1073/pnas.1313476110. Consultado em 3 de julho de 2014 
  11. Altman, Douglas G. (1999). Practical Statistics for Medical Research. New York, USA: Chapman & Hall/CRC. 167 páginas. ISBN 978-0412276309 
  12. a b Paes, Ângela Tavares (1998). «Itens Essenciais em Bioestatística». Arquivos Brasileiros de Cardiologia. 71 (4) 
  13. Babbie, Earl R. (2013). «The logic of sampling». The Practice of Social Research 13th ed. Belmont, CA: Cengage Learning. pp. 185–226. ISBN 1-133-04979-6 
  14. Faherty, Vincent (2008). «Probability and statistical significance». Compassionate Statistics: Applied Quantitative Analysis for Social Services (With exercises and instructions in SPSS) 1st ed. Thousand Oaks, CA: SAGE Publications, Inc. pp. 127–138. ISBN 1-412-93982-8 
  15. McKillup, Steve (2006). «Probability helps you make a decision about your results». Statistics Explained: An Introductory Guide for Life Scientists 1st ed. Cambridge, United Kingdom: Cambridge University Press. pp. 44–56. ISBN 0-521-54316-9 
  16. Samohyl, Robert Wayne (2009). Controle Estatístico de Qualidade. [S.l.]: Elsevier. 76 páginas 
  17. «Arbuthnot's Data on Male and Female Birth Ratios in London from 1629 – 1710». Consultado em 1 de fevereiro de 2017 
  18. Cumming, Geoff (2011). «From null hypothesis significance to testing effect sizes». Understanding The New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis. Col: Multivariate Applications Series. East Sussex, United Kingdom: Routledge. pp. 21–52. ISBN 0-415-87968-X 
  19. "Critical tests of this kind may be called tests of significance, and when such tests are available we may discover whether a second sample is or is not significantly different from the first." — R. A. Fisher (1925). Statistical Methods for Research Workers, Edinburgh: Oliver and Boyd, 1925, p.43.
  20. Fisher, Ronald A. (1925). Statistical Methods for Research Workers. Edinburgh, UK: Oliver and Boyd. 43 páginas. ISBN 0-050-02170-2 
  21. Felsenstein, Joseph. «Confidence Intervals, t Tests, p Values» (PDF). Department of Genome Sciences and Department of Biology – University of Washington. Consultado em 1 de fevereiro de 2017 
  22. a b Quinn, Geoffrey R.; Keough, Michael J. (2002). Experimental Design and Data Analysis for Biologists 1st ed. Cambridge, UK: Cambridge University Press. pp. 46–69. ISBN 0-521-00976-6 
  23. Neyman, J.; Pearson, E.S. (1933). «The testing of statistical hypotheses in relation to probabilities a priori». Mathematical Proceedings of the Cambridge Philosophical Society. 29: 492–510. doi:10.1017/S030500410001152X 
  24. a b Dávila, Víctor Hugo Lachos. «Teste de Hipóteses» (PDF). Universidade Estadual de Campinas (UNICAMP). p. 3. Consultado em 13 de abril de 2017 
  25. «Introdução à Inferência Estatística» (PDF). Universidade Federal de São Carlos (UFSCar). p. 79. Consultado em 4 de maio de 2017 
  26. a b Schlotzhauer, Sandra (2007). Elementary Statistics Using JMP (SAS Press) PAP/CDR ed. Cary, NC: SAS Institute. pp. 166–169. ISBN 1-599-94375-1 
  27. a b "Conclusions about statistical significance are possible with the help of the confidence interval. If the confidence interval does not include the value of zero effect, it can be assumed that there is a statistically significant result." «Confidence Interval or P-Value?». doi:10.3238/arztebl.2009.0335 
  28. a b StatNews #73: Overlapping Confidence Intervals and Statistical Significance
  29. Fisher, R (1955). «Statistical Methods and Scientific Induction» (PDF). Journal of the Royal Statistical Society, Series B. 17 (1): 69–78 
  30. Ehlers, Ricardo S. (2007). «Inferência Bayesiana» (PDF). Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo (ICMC / USP). Consultado em 15 de maio de 2017 
  31. Magalhães, Marcos Nascimento; Lima, Antonio Carlos Pedroso (2007). Noções de Probabilidade e Estatística. São Paulo: EdUSP. 248 páginas 
  32. CINELLI, CARLOS LEONARDO KULNIG (2012). «INFERÊNCIA ESTATÍSTICA E A PRÁTICA ECONÔMICA NO BRASIL: OS (AB)USOS DOS TESTES DE SIGNIFICÂNCIA» (PDF). UNIVERSIDADE DE BRASÍLIA. pp. 17 – 18. Consultado em 2 de maio de 2017 
  33. a b Cinelli, Carlos Leonardo Kulnig. «Inferência Estatística e Prática Econômica no Brasil: Os (ab)Usos dos Testes de Significância» (PDF) 
  34. Lara, Idemauro Antonio Rodrigues de. «Teste de Hipótese – Notas de Aula» (PDF). Escola Superior de Agricultura Luiz de Queiroz da Universidade de São Paulo (ESALQ / USP). Consultado em 1 de fevereiro de 2017 
  35. a b c d e Bussab, Wilton de O. (2012). Estatística Básica. São Paulo: Saraiva. 339 páginas 
  36. a b c d Spiegel, Murray R. (2006). Estatística. São Paulo: Pearson. 260 páginas 
  37. Spiegel, Murray R. (2006). Estatística. São Paulo: Pearson. 261 páginas 
  38. Reis, Marcelo Menezes. «Poder do Teste – Poder do Teste e Tamanho de Amostra para Testes de Hipóteses» (PDF). Universidade Federal de Santa Catarina (UFSC). Consultado em 15 de maio de 2017 
  39. Meier, Kenneth J.; Brudney, Jeffrey L.; Bohte, John (2011). Applied Statistics for Public and Nonprofit Administration 3rd ed. Boston, MA: Cengage Learning. pp. 189–209. ISBN 1-111-34280-6 
  40. Devore, Jay L. (2011). Probability and Statistics for Engineering and the Sciences 8th ed. Boston, MA: Cengage Learning. pp. 300–344. ISBN 0-538-73352-7 
  41. Healy, Joseph F. (2009). The Essentials of Statistics: A Tool for Social Research 2nd ed. Belmont, CA: Cengage Learning. pp. 177–205. ISBN 0-495-60143-8 
  42. McKillup, Steve (2006). Statistics Explained: An Introductory Guide for Life Scientists 1st ed. Cambridge, UK: Cambridge University Press. pp. 32–38. ISBN 0-521-54316-9 
  43. Health, David (1995). An Introduction To Experimental Design And Statistics For Biology 1st ed. Boston, MA: CRC press. pp. 123–154. ISBN 1-857-28132-2 
  44. Myers, Jerome L.; Well, Arnold D.; Lorch, Jr., Robert F. (2010). «Developing fundamentals of hypothesis testing using the binomial distribution». Research design and statistical analysis 3rd ed. New York, NY: Routledge. pp. 65–90. ISBN 0-805-86431-8 
  45. Hinton, Perry R. (2010). «Significance, error, and power». Statistics explained 3rd ed. New York, NY: Routledge. pp. 79–90. ISBN 1-848-72312-1 
  46. Viali, Lorí. «Testes de hipóteses» (PDF). Universidade Federal do Rio Grande do Sul (UFRGS). Consultado em 15 de maio de 2017 
  47. Hubbard, Raymond; Bayarri, M. J. (2003). «P Values are not Error Probabilities» (PDF) 
  48. a b Vaughan, Simon (2013). Scientific Inference: Learning from Data 1st ed. Cambridge, UK: Cambridge University Press. pp. 146–152. ISBN 1-107-02482-X 
  49. Bracken, Michael B. (2013). Risk, Chance, and Causation: Investigating the Origins and Treatment of Disease 1st ed. New Haven, CT: Yale University Press. pp. 260–276. ISBN 0-300-18884-6 
  50. Franklin, Allan (2013). «Prologue: The rise of the sigmas». Shifting Standards: Experiments in Particle Physics in the Twentieth Century 1st ed. Pittsburgh, PA: University of Pittsburgh Press. pp. Ii–Iii. ISBN 0-822-94430-8 
  51. Clarke, GM; Anderson, CA; Pettersson, FH; Cardon, LR; Morris, AP; Zondervan, KT (6 de fevereiro de 2011). «Basic statistical analysis in genetic case-control studies». Nature Protocols. 6 (2): 121–33. PMC 3154648Acessível livremente. PMID 21293453. doi:10.1038/nprot.2010.182 
  52. Barsh, GS; Copenhaver, GP; Gibson, G; Williams, SM (5 de julho de 2012). «Guidelines for Genome-Wide Association Studies». PLoS Genetics. 8 (7): e1002812. PMC 3390399Acessível livremente. PMID 22792080. doi:10.1371/journal.pgen.1002812 
  53. Heuer, Rolf (2012). «Une Fin D'Année Pleine de Suspense». Bulletin Hebdomadaire du CERN. Consultado em 24 de janeiro de 2017 
  54. LIGO Scientific Collaboration, Virgo Collaboration (2016), «Observation of Gravitational Waves from a Binary Black Hole Merger», Physical Review Letters, 116 (6), PMID 26918975, arXiv:1602.03837Acessível livremente, doi:10.1103/PhysRevLett.116.061102 
  55. Carver, Ronald P. (1978). «The Case Against Statistical Significance Testing». Harvard Educational Review. 48: 378–399 
  56. Ioannidis, John P. A. (2005). «Why most published research findings are false». PLoS Medicine. 2: e124. PMC 1182327Acessível livremente. PMID 16060722. doi:10.1371/journal.pmed.0020124 
  57. Hojat, Mohammadreza; Xu, Gang (2004). «A Visitor's Guide to Effect Sizes». Advances in Health Sciences Education 
  58. «Significância estatística e prática». Suporte ao Minitab® 17. Consultado em 31 de maio de 2017 
  59. Hojat, Mohammadreza; Xu, Gang (2004). «A Visitor's Guide to Effect Sizes». Advances in Health Sciences Education 
  60. Loureiro, Luís Manuel de Jesus; Gameiro, Manuel G. H. (2011). «Interpretação crítica dos resultados estatísticos: para lá da significância estatística» (PDF). Revista de Enfermagem Referência. III (3): 151-162. Consultado em 31 de maio de 2017 
  61. Pedhazur, Elazar J.; Schmelkin, Liora P. (1991). Measurement, Design, and Analysis: An Integrated Approach Student ed. New York, NY: Psychology Press. pp. 180–210. ISBN 0-805-81063-3 
  62. Stahel, Werner (2016). «Statistical Issue in Reproducibility». Principles, Problems, Practices, and Prospects Reproducibility: Principles, Problems, Practices, and Prospects: 87-114 
  63. «CSSME Seminar Series: The argument over p-values and the Null Hypothesis Significance Testing (NHST) paradigm » School of Education » University of Leeds». www.education.leeds.ac.uk. Consultado em 1 de dezembro de 2016 
  64. Woolston, Chris (5 de março de 2015). «Psychology journal bans P values». Nature. 519 (7541): 9–9. doi:10.1038/519009f 
  65. Siegfried, Tom (17 de março de 2015). «P value ban: small step for a journal, giant leap for science». Science News. Consultado em 1 de dezembro de 2016 
  66. Magalhães, Marcos Nascimento; Lima, Antonio Carlos Pedroso (2007). Noções de Probabilidade e Estatística. São Paulo: EdUSP. 243 páginas 
  67. Magalhães, Marcos Nascimento; Lima, Antonio Carlos Pedroso de (2007). Noções de Probabilidade e Estatística. São Paulo: EdUSP. 244 páginas 
  68. «Testes de Hipótese» (PDF). UFSCAR. p. 1. Consultado em 20 de fevereiro de 2017 

Leitura adicional[editar | editar código-fonte]

  • ZILIAK, Stephen Thomas; MCCLOSKEY, Deirdre N. The cult of statistical significance: How the standard error costs us jobs, justice, and lives. University of Michigan Press, 2008.
  • THOMPSON, Bruce. The “significance” crisis in psychology and education.The Journal of Socio-Economics, v. 33, n. 5, p. 607-613, 2004.
  • FRICK, Robert W. Statistical Significance: Rationale, Validity and Utility.Journal of the American Statistical Association, v. 93, n. 441, p. 406-407, 1998.
  • KLEIN, Donald F. Beyond significance testing: Reforming data analysis methods in behavioral research. American Journal of Psychiatry, v. 162, n. 3, p. 643-a-644, 2005.
  • NUZZO, Regina. Statistical errors. Nature, v. 506, n. 7487, p. 150, 2014.
  • COHEN, Jacob. The earth is round (p. 05): Rejoinder. 1995.

Ligações externas[editar | editar código-fonte]