Significância estatística

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa

A significância estatística é uma medida estimada do grau em que o resultado de um experimento é verdadeiro.[1] Em testes de hipóteses estatísticos[2][3], a significância estatística ou o resultado estatisticamente significante é obtido quando o valor–p observado é menor que o nível de significância definido para o estudo.[4][5][6][7][8][9][10]. O conceito de teste de significância começou a ser desenvolvido no início do século XX pelo estatístico Ronald Fisher. O termo significância não implica importância e o termo significância estatística não significa pesquisa ou significância prática ou teórica.[2][3][11] Por exemplo, o termo significância clinica refere–se à importância prática do efeito de um tratamento.

O valor–p (nível descritivo ou probabilidade de significância) é a probabilidade de se obter uma estatística de teste igual ou mais extrema que a estatística observada a partir de uma amostra de uma população quando a hipótese nula é verdadeira. Em outras palavras, o valor–p é o menor nível de significância para o qual se rejeita a hipótese nula.[12] Por exemplo, a hipótese nula é rejeitada a 5% quando o valor–p é menor que 5%. Um valor–p pequeno significa que a probabilidade de se obter uma estatística em um teste com valor igual ao de uma estatística em uma amostra é muito improvável, de modo que a hipótese nula é rejeitada.

O nível de significância é a probabilidade de se rejeitar a hipótese nula quando ela é verdadeira.[13] A hipótese assumida como verdadeira para a construção do teste de hipóteses. O nível de significância é geralmente determinado pelo pesquisador antes da coleta dos dados e tradicionalmente fixado em 0,05[14][15] ou abaixo[16], dependendo da área de estudo. Em muitas áreas de estudo, resultados com nível de significância de 0,05 (probabilidade de erro de 5%) são considerados estatisticamente relevantes.[1]

Quando retira–se uma amostra de uma população em um experimento, há possibilidade de ocorrer um efeito devido ao erro amostral (diferença entre a estimativa da amostra e o parâmetro da população).[17][18] Se o valor–p do efeito for menor que o nível de significância, pode–se concluir que o efeito reflete as características de toda a população[2] e rejeitar a hipótese nula.[19]

História[editar | editar código-fonte]

Em 1710, John Arbuthnot (1667 — 1735) fez a primeira tentativa de análise de teste de hipótese com cálculos probabilísticos.[20] Em An Argument for Divine Providence, Taken From the Constant Regularity Observed in the Births of Both Sexes, Arbuthnot usou séries de dados temporais da proporção de nascimentos de homens e da proporção de nascimentos de mulheres em Londres entre 1629 e 1710 para realizar o primeiro teste de significância por meio da comparação de dados observados e hipótese nula.[21]

Em 1925, Ronald Fisher (1890 — 1962) avançou o conceito de teste de hipótese. Em Statistical Methods for Research Workers, Fisher chamou os testes de hipótese de testes de significância[22][23][24][25], sugeriu a probabilidade de 0,05 como o nível de corte para rejeitar a hipótese nula[26] e aplicoa a uma distribuição normal como um teste de duas caudas.

Em Statistical Methods for Research Workers, Fisher também introduziu o valor aproximado de 1,96 para o 97,5 percentil de um distribuição normal usado em probabilidade e estatística e popularizou o conceito de valor–p.[27]

Apesar da indicação da probabilidade de 0,05, Fisher não pretendia que o nível de significância fosse fixo. Em Statistical Methods and Scientific Inference, Fisher sugere que os níveis de significância sejam estabelecidos de acordo com circunstâncias específicas.[26] Em 1933, Jerzy Neyman e Egon Pearson aprimoraram o teste de significância, denominaram o nível de corte de nível de significância e recomendaram que o nível de significância fosse determinado antes da coleta dos dados.[26][28]

Conceitos relacionados[editar | editar código-fonte]

Teste de hipótese[editar | editar código-fonte]

O teste de hipótese é um procedimento estatístico baseado na análise de uma amostra por meio da teoria das probabilidades, utilizado para avaliar determinados parâmetros que são desconhecidos em uma população. O teste de hipóteses propõe uma hipótese para a relação estatística entre os dois conjuntos de dados comparados. Esta comparação é considerada estatisticamente significante se a relação entre os conjuntos de dados rejeitar a hipótese nula.

Em um teste de hipóteses, a hipótese nula é a hipótese assumida como verdadeira para a construção do teste (a teoria, o efeito ou a alternativa que se está interessados em testar), a hipótese alternativa é a hipótese considerada quando a hipótese nula não tem evidência estatística, o erro do tipo I é a probabilidade de se rejeitar a hipótese nula quando ela é verdadeira e o erro do tipo II é a probabilidade de se rejeitar a hipótese alternativa quando ela é verdadeira.

Nível de significância[editar | editar código-fonte]

O nível de significância é o limite para o valor–p, abaixo do qual assume–se que a hipótese nula é falsa. O valor–p é a probabilidade de se obter uma estatística de teste igual ou mais extrema que a estatística observada a partir de uma amostra de uma população quando ela é verdadeira. Isto significa que o nível de significância é a probabilidade de se rejeitar incorretamente a hipótese nula quando a ela é verdadeira.[29] O nível de significância corresponde ao erro do tipo I, cujos valores comuns são 5% e 1%.

Nível de confiança[editar | editar código-fonte]

O nível de confiança é a probabilidade de não se rejeitar a hipótese nula quando ela é verdadeira.[30][31] Em relação ao intervalo de confiança, o nível de confiança é a frequência com a qual o intervalo observado contém o parâmetro real de interesse quando o experimento é repetido várias vezes. Por exemplo, o nível de confiança de 95% significa que 95% dos intervalos de confiança construídos a partir das amostras aleatórias contêm o parâmetro real. Em relação ao teste de hipótese, o nível de confiança é o complemento do nível de significância. Isto é, um intervalo de confiança de 95% reflete um nível de significância de 0,05.

Definição informal[editar | editar código-fonte]

A significância estatística indica que é improvável que o resultado tenha ocorrido por acaso. Está relacionada ao nível de confiança ao rejeitar a hipótese nula quando ela é verdadeira (erro tipo I). O nível de significância não pode ser confundido com o valor–p, sobretudo porque não é uma probabilidade. Em um teste hipotético, em que fosse possível repetir um número muito grande de amostras para calcular a média, a hipótese nula seria rejeita quando ela fosse verdadeira em aproximadamente 5% das amostras. Em um experimento real, em que é possível coletar somente uma amostra, espera–se que a amostra seja uma das 95% para as quais a hipótese nula é falsa.

Em um teste de cauda dupla o nível de rejeição é particionado entre os dois lados da distribuição amostral e responde por apenas 5% da área abaixo da curva.

É assim que tem–se a confiança do resultado. Quando calcula–se um intervalo de confiança de 95% (equivalente a um erro tipo I de 5%), tem–se a confiança que o intervalo contém o parâmetro estimado. Entretanto, quando reporta–se um intervalo, o parâmetro populacional desconhecido está dentro ou está fora do intervalo. Não existe probabilidade de o intervalo conter o parâmetro populacional.

É possível escolher um nível de significância de 5% e calcular um valor crítico de um parâmetro (por exemplo, a média), de modo que a probabilidade a probabilidade do parâmetro exceder o valor crítico dada a hipótese nula verdadeira é 5%. Se o valor estatístico (nível de significância de 5% determinado anteriormente) exceder o valor crítico, o resultado é significante ao nível de 5%. Se o nível de significância (por exemplo, o nível de significância de 5% determinado anteriormente) é menor, a probabilidade do valor estatístico ser mais extremo que o valor crítico também é menor. Então, um resultado significante ao nível de 1% é mais significante que um resultado significante ao nível de 5%. Entretanto, um teste ao nível de confiança de 1% é mais susceptível de ter o erro tipo II que um teste ao nível de confiança de 5%. Portanto, terá menos poder estatístico.

Definição formal[editar | editar código-fonte]

Em testes de hipótese, formula–se a hipótese nula a ser testada e realizam–se os testes para rejeitar ou não rejeita–la. Há quatro situações possíveis:[32]

Hipótese nula é verdadeira Hipótese nula é falsa
Hipótese nula é rejeitada Erro tipo I Não há erro
Hipótese nula não é rejeitada Não há erro Erro tipo II

Isto é, o erro tipo I ocorre quando chega–se a um resultado que aconteceu por acaso, apesar de ter significância estatística. O erro tipo I também é chamado de falso positivo. O erro tipo II ocorre quando não rejeita–se a hipótese nula quando ela é falsa. Quando realizar o teste de hipótese, o pesquisador deve tentar maximizar o poder de uma dada significância. Entretanto, o pesquisador precisa reconhecer que o melhor resultado possível é um equilíbrio entre significância e poder. Em outras palavras, entre o erro tipo I e o erro tipo II. O lema de Neyman–Pearson consiste justamente em demonstrar as condições necessárias e suficientes para o teste de hipótese mais poderoso.[33]

Portanto, seja uma amostra aleatória com função densidade ou distribuição de probabilidade , com , sejam e seja a constante para o nível de significância .

Então, o teste é definido como o teste mais poderoso para o nível de significância para testar a hipótese nula contra a hipótese alternativa .[34]

É importante ressaltar que os valores–p de Fisher são filosoficamente dos erros tipo I de Neyman–Pearson, embora muitos livros sobre análise estatística em diferentes áreas de pesquisa tanto de graduação quando de pós–graduação como se fosse um método único de inferência estatística.[35]

Hoje o método considerado clássico é o teste de hipótese de Neyman–Pearson, embora muitas vezes ele seja apresentado com os testes de significância de Fisher. Esta mistura com mais elementos de Fisher que elementos de Neyman–Pearson e com interpretação bayseana de alguns resultados pode resultar na confusão entre medidas de erro procedimentais, entre probabilidades frequentistas utilizadas e probabilidades a posteriori de a hipótese nula ser verdadeira ou conter erro e entre a significância estatística e a significância científica dos resultados da pesquisa.[33]

Exemplos[editar | editar código-fonte]

Fábrica de grãos

Seja uma fábrica qualquer que produz um tipo de grão e cujas máquinas podem encher pacotes para serem vendidos com uma média e uma variância sempre igual a . As regulagens das máquinas estão em para encher os pacotes na fabricação. Para entender se há falta de regulagem nas máquinas, periodicamente se obtém uma amostra de 14 pacotes. Se as amostras tiverem , então as máquinas estão fora de controle e precisam ser reguladas. Entranto, Se uma amostra tiver média , será necessário regular as máquinas?[36]

Considerando o peso de cada pacote, então . Para este caso as hipóteses são . Considerando a variância , então para a média de 14 pacotes tem distribuição , para todo , em que o desvio padrão de é . Fixando o nível de significância , tem–se que deve ser rejeitada quando for pequeno ou grande demais.

A partir da curva normal padronizada obtém–se os scores e . Isto é,

Portanto, a região crítica é definida como .[36] Neste problema . Portanto, como não pertence a região crítica, não deverá ser rejeitada.

A região de aceitação é o conjunto de valores do teste estatístico para o qual a hipótese nula não é rejeitada. Enquanto a região de rejeição ou a região crítica é o conjunto de valores do teste estatístico para o qual a hipótese nula é rejeitada.

Lançamento de moedas[editar | editar código-fonte]

Se uma moeda é honesta, em 100 lances, qual a probabilidade de se obter entre 40 e 60 a face cara[37] A média e o desvio padrão para a possibilidade da face cara da moeda para os 100 lances são e . A partir dos scores de e obtém–se e .

A probabilidade desejada é igual a área sob a curva normal entre e . Isto é, por meio da tabela padronizada normal, tem–se a área igual a entre e .[37]

RC-Normal.svg

A probabilidade de rejeitar a hipotese quando ela é correta é a área total da curva normal (100% = 1) menos a probabilidade desejada. Isto é, . Logo, a probabilidade de rejeitar a hipotese quando ela é correta, é . A partir da probabilidade de defini-se o nível de significância em em rejeição da hipótese. [38]

Papel nos testes de hipótese estatísticos[editar | editar código-fonte]

Ficheiro:NormalDist1.96.png
Em um teste de duas caudas, a região de rejeição para um nível de significância de 0,05 é dividida em ambas as extremidades da distribuição amostral e corresponde a 5% da área sob a curva (áreas brancas).

A significância estatística desempenha um papel fundamental em testes de hipótese estatísticos. É usado para determinar de a hipótese numa deve ser rejeitada ou mantida. A hipótese nula é a suposição padrão de que nada aconteceu ou de que nada mudou.[39] Para a hipótese nula ser rejeitada, um resultado observado precisa ser significantemente estatístico. Isto é, o valor é menor que o nível de significância pré–estabelecido.

Para determinar se o resultado é estatisticamente significante, o pesquisado calcula o valor , a probabilidade de observar um efeito dado que a hipótese nula é verdadeira.[10] A hipótese nula é rejeitada se o valor é menor que um nível pré–determinado . é chamado nível de significância e é a probabilidade de rejeitar a hipótese nula dado que ela é verdade (erro do tipo I). É geralmente estabelecido em ou abaixo de 5%.

Por exemplo, quando é estabelecido em 5%, a probabilidade condicional de um erro do tipo I, dado que a hipótese nula é verdadeira, é 5%[40]. Um resultado estatisticamente significante é aquele em que o valor observado é menor que 5%.[41] Quando retirando dados de uma população, significa que a região de rejeição compreende 5% da distribuição amostral.[42] Estes 5% podem ser alocados para um lado da distribuição como em um teste com uma cauda ou repartidps para os dois lados da distribuição como em um teste com duas caudas, com cada cauda (região de rejeição) contendo 2,5% da distribuição.

O uso de um teste de uma cauda depende se a questão de pesquisa ou a hipótese alternativa especificar uma direção como se um grupo de objetos é mais pesado ou o desempenho de estudantes em uma tarefa é melhor.[43] O teste de duas caudas pode ser utllizado, mas ele será menos poderoso que o teste de uma cauda porque a região de rejeição para o teste de uma cauda é concentrado em uma extremidade da distribuição nula e tem o dobro do tamanho (5% ante 2,5%) de cada região de rejeição para o teste de duas caudas. Como resultado, a hipótese nula pode ser rejeitada com um resultado menos extremos se um teste de uma cauda foi usado.[44] O teste de uma cauda é mais poderoso que o teste de duas caudas apenas se a direção especificada ou a hipótese alternativa forem corretas. Se a direção especificada ou a hipótese alternativa forem erradas, então o teste de uma cauda não tem poder.

Os testes de hipótese são constituídos de alternativas que são testadas. Uma população tem uma amostra retirada e através da aplicação de teoria de probabilidades é possível tirar conclusões em relação a essa amostra, como determinar sua veracidade em relação a composição da população, distinguir entre diferentes populações das quais a amostra pode ser oriunda, auxiliar na comprovação de uma teoria ou no remodelamento dos métodos de testes aplicados para a sua comprovação, determinar limites estatísticos para uma população (doenças, intenções de voto, salário, por exemplo), checar a confiabilidade de um estudo e no auxílio de qualquer tomada de decisão simples em que seja necessário um rigor estatístico para comprovação da escolha.

Limites de significância rigorosos em áreas específicas[editar | editar código-fonte]

Em áreas específicas como física de partículas ou indústria, a significância estatística geralmente é expressa em múltiplos dos desvios padrão () de uma distribuição normal com limites de significância estabelecidos em um nível muito mais rigoroso (por exemplo, ).[45][45] Por exemplo, a certeza da existência da particula Bóson de Higgs foi baseada no critério , que corresponde ao valor de cerca de 1 em 3,5 milhões.[46][47]

Em outras áreas de pesquisa científica como os estudos do genoma níveis de significância tão baixos quanto 5×10−8 não são incomuns.[48][49]

Em um exemplo na física de partículas, o padrão 5 sigma é usado para considerar o resultado significativo. O padrão 5 sigma traduz uma chance em 3,5 milhões de uma flutuação aleatória afetar o resultado, o que representa uma probabilidade de erro inferior a 0,00003 % (nível de confiança superior a 99.99997%).[50] Este nível de certeza foi requerido para declarar a primeira detecção de ondas gravitacionais[51][52] e garantir a descoberta de uma partícula consistente com bóson de Higgs em dois experimentos independentes na Organização Europeia para a Pesquisa Nuclear (CERN).

Correções[editar | editar código-fonte]

Para testes de hipóteses, o problema de comparações múltiplas (também conhecido como problema de testes múltiplos) resulta do aumento do erro do tipo I que ocorre quando os testes são usados repetidamente. Se comparações independentes foram realizadas, o nível de significância do experimento (também chamado taxa de erro da família) é dado por Consequentemente, a menos que os testes sejam perfeitamente e positivamente dependentes, aumenta conforme o número de comparações aumenta. Se as comparações não forem independentes, também é possível afirmar que , seguindo a desigualdade de Boole.

Há diferentes formar de garantir que a taxa de erro da família seja . O método mais conservador, que é livre de dependência e suposições distributivas é a correção de Bonferroni . Uma correção menos conservadora pode ser obtida resolvendo a equação para a taxa de erro da família de comparações independentes para . isto resulta em , que é conhecido como a correção de Šidák. Outro procedimento é o método de Holm–Bonferroni, que tem mais poder que a correção de Bonferroni testando apenas o menor p–valor () contra o critério mais rigoroso e o maior p–valor () contra o critério menos rigoroso[53]

Correção de Bonferroni[editar | editar código-fonte]

Em estatística, a correção de Bonferroni é um dos vários métodos utilizados para neutralizar o problema das comparações múltiplas. O teste de hipóteses é baseado na rejeição da hipótese nula se a probabilidade dos dados observados ficar abaixo da hipótese nula for baixa. Se as múltiplas comparações forem feitas ou se as múltiplas hipóteses forem testadas, a chance de acontecer um evento raro aumenta e, portanto, a probabilidade de rejeitar–se incorretamente a hipótese nula também aumenta. Isto é, a chance de ocorrer erro do tipo I aumenta.[54] A correção de Bonferroni compensa este aumento por meio do teste de cada hipótese individual em um nível de significância de , em que é o nível total desejado e é o número de hipóteses .[55] Por exemplo, se foram testadas com , então a correção de Bonferroni testaria cada hipótese individual com .

Desigualdade de Bonferroni[editar | editar código-fonte]

Em teoria das probabilidades, a desigualdade de Boole afirma que para qualquer conjunto finito de eventos a probabilidade de pelo menos um dos eventos acontecer não é maior que a soma das probabilidades dos eventos individuais. A desigualdade de Boole pode ser generalizada para encontrar os limites superiores e inferiores da probabilidade de um conjunto finito de eventos.[56] Estes limites são conhecidos como desigualdades de Bonferroni.

Sejam e , assim como , para todos os inteiros em . Então, para ímpares em , , e para pares em , .

A desigualdade de Boole é recuperada estabelecendo–se . Quando , a igualdade se mantém e a identidade resultante é o princípio da inclusão–exclusão.

Método de Holm–Bonferroni[editar | editar código-fonte]

Em estatística, o método de Holm–Bonferroni[57] (também chamado método de Holm ou método de Bonferroni–Holm) é usado para neutralizar o problema das comparações múltiplas. Pretende–se controlar a taxa de erro da família e oferece–se um teste simples uniformemente mais poderoso que a correção de Bonferroni. É um dos primeiros usos de stepwise algorithms em inferência simultânea. O método de Holm–Bonferroni segue os seguintes passos:

  • Seja a família de hipóteses e os p–valores correspondentes.
  • Os p–valores são ordenados em ordem crescente , sendo as hipóteses associadas.
  • Para um dado nível de significância , seja o índice mínimo para o qual .
  • As hipóteses nulas são rejeitadas e as hipóteses não são rejeitadas.
  • Se , então nenhuma hipótese nula é rejeitadas. Se não existir nenhum , então todas as hipóteses nulas são rejeitadas.

Correção de Šidák[editar | editar código-fonte]

Em estatística, a correção de Šidák ou correção de Dunn–Šidák é um método utilizado para neutralizar o problema das comparações múltiplas. É um método simples de controlar a taxa de erro da família. Quando todas as hipóteses nulas são verdadeiras, o método fornece o controle do erro da família exato para testes que são estocasticamente independentes. É conservador para testes que são positivamente dependentes e é liberal para testes que são negativamente dependentes.

Limitações[editar | editar código-fonte]

Pesquisadores focam–se exclusivamente se seus resultados são estatisticamente significantes e se eles podem reportar dados que não são substanciais[58] e replicáveis.[59] Há também uma diferença entre a significância estatística e a significância prática. Um estudo que mostre–se estatisticamente significante não necessariamente pode ser praticamente significante.[60]

Tamanho do efeito[editar | editar código-fonte]

Tamanho do efeito é uma medida da significância prática de um estudo.[61] Um resultado estatisticamente significante pode ter um efeito fraco. para avaliar a significância da pesquisa do seu resultado, pesquisadores são encorajados a sempre reportar o tamanho do efeito junto com os valores . Uma medida de tamanho do efeito quantifica a força de um efeito, como a distância entre duas médias em unidades de desvio padrão, a correlação entre duas variáveis ou seus quadrados e outras medidas.[62]

Reprodutibilidade[editar | editar código-fonte]

Um resultado estatisticamente significante pode não ser fácil de ser reproduzido. Em particular, alguns resultados estatisticamente significantes irão de fato falsos positivos. Cada tentativa sem sucesso de reproduzir um resultado aumenta a crença que o resultado era um falso positivo.[63]

Controvérsia sobre o uso excessivo em algumas revistas[editar | editar código-fonte]

Começando nos anos 2010, algumas revistas começaram a questionar se o teste de significância, e particularmente o uso de um limiar de , estava sendo muito usado como medida primária de validade de uma hipótese.[64] Algumas revistas encorajaram autores a fazer análises mais detalhadas que apenas um teste de significância estatístico. Em psicologia social, o Journal of Basic and Applied Social Psychology baniu o uso do teste de significância dos trabalhos publicados por ela, exigindo que os autores usassem outras medidas para avaliar hipótese e impacto.[65][66]

Utilizações[editar | editar código-fonte]

Medicina

Na medicina o uso do teste de significância pode ser relacionado a vários fatores, como a aceitação de uma determinada substância para um tratamento de vírus ou bactérias, as condições sobre os pacientes no sentido de risco para uma cirurgia, se é possível imunizar uma população, etc. Isso pode ser analisado se tomada uma hipótese, esta será aceita ou não dentro dos parâmetros de significância. Por exemplo, é possível verificar em uma população saudável comparando com uma população doente e, essa comparação será possível a partir de amostras de sangue de cada população. Ou seja, a amostra da população considerada saudável terá um comportamento diferente da população doente e, ambas amostras possuem características estatísticas, como desvio padrão, media, mediana, etc. Dessa forma pode-se aproximar as amostras para uma distribuição normal e comparando as duas amostras e suas curvas normais de doentes e saudáveis pode-se entender o quanto cada curva normal pode se sobrepor uma na outra. Isto é, o quanto da população saudável pode se tornar doente devido a área crítica. [67]

Indústria

Na indústria existem várias preocupações sobre o custo de produção, a durabilidade, a aceitação de um determinado item e etc. Por exemplo, se uma empresa tem a intenção de verificar o quanto uma carga de bateria pode sofrer impactos termo-elétricos. Ou seja, existe um probabilidade a qual pode levar a falha da bateria, dessa forma testa-se se um modelo matemático geométrico será adequado para determinar uma variável aleatória a qual indica a quantidade de impactos suportado pela bateria. Para o teste de impactos termo-elétricos providencia-se ao acaso uma amostra quantitativa de bateria e, supondo que a mostra seja , desenvolve-se um teste impondo a cada bateria um impacto termo-elétrico e observa-se em qual bateria irá ocorrer a falha e, dessa forma é possível expor uma tabela de frequência indicando os valores. A partir dos dados coletados inicia-se a análise sobre rejeitar ou não a hipótese do modelo matemático geométrico. Portanto, uma análise com teste de significância é possível identificar a quantidade de impactos termo-elétricos em um produto na indústria.[68]

Agronegócio

Na agricultura se examina alguns modelos para plantar uma determinada espécie de alimento, como maçã, feijão, café e etc. Também é comum em uma lavoura ocorrer incidência de insetos os quais são conhecidos como pragas no setor para os agricultores. O controle das pragas são realizados através de pesticida os quais matam os insetos e não comprometem a colheita e isso gera custos. No entanto, se um agricultor puder verificar se o nível de pragas na sua lavoura pode permitir a troca para um pesticida mais barato e permitindo uma economia local. O agricultor ao investigar que sempre utiliza o mesmo pesticida mais caro para a quantidade na lavoura superior a de pragas em relação a lavoura, ou seja, se o agricultor obter uma evidência de que a quantidade da lavoura contém uma quantidade inferior a de pragas, ele pode trocar o pesticida. Isto é, ao acaso se obtém uma amostra da lavoura e se cálculo os parâmetros para o teste de hipótese, como média, mediana, desvio padrão e etc. Dessa forma o agricultor poderá economizar com o custo do pesticida através de um teste de hipótese o qual contém o nível de significância e, a hipótese de não seja rejeitada.[69]

Ver também[editar | editar código-fonte]

Referências

  1. a b «Conceitos Elementares de Estatística». Consultado em 1 de fevereiro de 2017 
  2. a b c Sirkin, R. Mark (2005). «Two-sample t tests». Statistics for the Social Sciences 3rd ed. Thousand Oaks, CA: SAGE Publications, Inc. pp. 271–316. ISBN 1-412-90546-X 
  3. a b Borror, Connie M. (2009). «Statistical decision making». The Certified Quality Engineer Handbook 3rd ed. Milwaukee, WI: ASQ Quality Press. pp. 418–472. ISBN 0-873-89745-5 
  4. Redmond, Carol; Colton, Theodore (2001). «Clinical significance versus statistical significance». Biostatistics in Clinical Trials. Col: Wiley Reference Series in Biostatistics 3rd ed. West Sussex, United Kingdom: John Wiley & Sons Ltd. pp. 35–36. ISBN 0-471-82211-6 
  5. Cumming, Geoff (2012). Understanding The New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis. New York, USA: Routledge. pp. 27–28 
  6. Krzywinski, Martin; Altman, Naomi (30 de outubro de 2013). «Points of significance: Significance, P values and t-tests». Nature Publishing Group. Nature Methods. 10 (11): 1041–1042. doi:10.1038/nmeth.2698. Consultado em 3 de julho de 2014 
  7. Sham, Pak C.; Purcell, Shaun M (17 de abril de 2014). «Statistical power and significance testing in large-scale genetic studies». Nature Publishing Group. Nature Reviews Genetics. 15 (5): 335–346. doi:10.1038/nrg3706. Consultado em 3 de julho de 2014 
  8. Johnson, Valen E. (9 de outubro de 2013). «Revised standards for statistical evidence». National Academies of Science. Proceedings of the National Academy of Sciences. 110: 19313–19317. doi:10.1073/pnas.1313476110. Consultado em 3 de julho de 2014 
  9. Altman, Douglas G. (1999). Practical Statistics for Medical Research. New York, USA: Chapman & Hall/CRC. 167 páginas. ISBN 978-0412276309 
  10. a b Devore, Jay L. (2011). Probability and Statistics for Engineering and the Sciences 8th ed. Boston, MA: Cengage Learning. pp. 300–344. ISBN 0-538-73352-7 
  11. Myers, Jerome L.; Well, Arnold D.; Lorch Jr, Robert F. (2010). «The t distribution and its applications». Research Design and Statistical Analysis: Third Edition 3rd ed. New York, NY: Routledge. pp. 124–153. ISBN 0-805-86431-8 
  12. Paes, Ângela Tavares (1998). «Itens Essenciais em Bioestatística». Arquivos Brasileiros de Cardiologia. 71 (4) 
  13. Schlotzhauer, Sandra (2007). Elementary Statistics Using JMP (SAS Press) PAP/CDR ed. Cary, NC: SAS Institute. pp. 166–169. ISBN 1-599-94375-1 
  14. Gauvreau K, Pagano M. Why 5%? Nutrition 1994;10(1):93-4.
  15. Craparo, Robert M. (2007). «Significance level». In: Salkind, Neil J. Encyclopedia of Measurement and Statistics. 3. Thousand Oaks, CA: SAGE Publications. pp. 889–891. ISBN 1-412-91611-9 
  16. Sproull, Natalie L. (2002). «Hypothesis testing». Handbook of Research Methods: A Guide for Practitioners and Students in the Social Science 2nd ed. Lanham, MD: Scarecrow Press, Inc. pp. 49–64. ISBN 0-810-84486-9 
  17. Babbie, Earl R. (2013). «The logic of sampling». The Practice of Social Research 13th ed. Belmont, CA: Cengage Learning. pp. 185–226. ISBN 1-133-04979-6 
  18. Faherty, Vincent (2008). «Probability and statistical significance». Compassionate Statistics: Applied Quantitative Analysis for Social Services (With exercises and instructions in SPSS) 1st ed. Thousand Oaks, CA: SAGE Publications, Inc. pp. 127–138. ISBN 1-412-93982-8 
  19. McKillup, Steve (2006). «Probability helps you make a decision about your results». Statistics Explained: An Introductory Guide for Life Scientists 1st ed. Cambridge, United Kingdom: Cambridge University Press. pp. 44–56. ISBN 0-521-54316-9 
  20. Samohyl, Robert Wayne (2009). Controle Estatístico de Qualidade. [S.l.]: Elsevier. 76 páginas 
  21. «Arbuthnot's Data on Male and Female Birth Ratios in London from 1629 – 1710». Consultado em 1 de fevereiro de 2017 
  22. Cumming, Geoff (2011). «From null hypothesis significance to testing effect sizes». Understanding The New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis. Col: Multivariate Applications Series. East Sussex, United Kingdom: Routledge. pp. 21–52. ISBN 0-415-87968-X 
  23. a b Fisher, Ronald A. (1925). Statistical Methods for Research Workers. Edinburgh, UK: Oliver and Boyd. 43 páginas. ISBN 0-050-02170-2 
  24. Poletiek, Fenna H. (2001). «Formal theories of testing». Hypothesis-testing Behaviour. Col: Essays in Cognitive Psychology 1st ed. East Sussex, United Kingdom: Psychology Press. pp. 29–48. ISBN 1-841-69159-3 
  25. "Critical tests of this kind may be called tests of significance, and when such tests are available we may discover whether a second sample is or is not significantly different from the first." — R. A. Fisher (1925). Statistical Methods for Research Workers, Edinburgh: Oliver and Boyd, 1925, p.43.
  26. a b c Quinn, Geoffrey R.; Keough, Michael J. (2002). Experimental Design and Data Analysis for Biologists 1st ed. Cambridge, UK: Cambridge University Press. pp. 46–69. ISBN 0-521-00976-6 
  27. Felsenstein, Joseph. «Confidence Intervals, t Tests, p Values» (PDF). Department of Genome Sciences and Department of Biology – University of Washington. Consultado em 1 de fevereiro de 2017 
  28. Neyman, J.; Pearson, E.S. (1933). «The testing of statistical hypotheses in relation to probabilities a priori». Mathematical Proceedings of the Cambridge Philosophical Society. 29: 492–510. doi:10.1017/S030500410001152X 
  29. Schlotzhauer, Sandra (2007). Elementary Statistics Using JMP (SAS Press) PAP/CDR ed. Cary, NC: SAS Institute. pp. 166–169. ISBN 1-599-94375-1 
  30. "Conclusions about statistical significance are possible with the help of the confidence interval. If the confidence interval does not include the value of zero effect, it can be assumed that there is a statistically significant result." «Confidence Interval or P-Value?». doi:10.3238/arztebl.2009.0335 
  31. StatNews #73: Overlapping Confidence Intervals and Statistical Significance
  32. Magalhães, Marcos Nascimento; Lima, Antonio Carlos Pedroso (2007). Noções de Probabilidade e Estatística. São Paulo: EdUSP. 248 páginas 
  33. a b Cinelli, Carlos Leonardo Kulnig. «Inferência Estatística e Prática Econômica no Brasil: Os (ab)Usos dos Testes de Significância» (PDF) 
  34. Lara, Idemauro Antonio Rodrigues de. «Teste de Hipótese – Notas de Aula» (PDF). Escola Superior de Agricultura Luiz de Queiroz da Universidade de São Paulo (ESALQ / USP). Consultado em 1 de fevereiro de 2017 
  35. Hubbard, Raymond; Bayarri, M. J. (2003). «P Values are not Error Probabilities» (PDF) 
  36. a b Bussab, Wilton de O. (2012). Estatística Básica. São Paulo: Saraiva. 339 páginas 
  37. a b Spiegel, Murray R. (2006). Estatística. São Paulo: Pearson. 260 páginas 
  38. Spiegel, Murray R. (2006). Estatística. São Paulo: Pearson. 261 páginas 
  39. Meier, Kenneth J.; Brudney, Jeffrey L.; Bohte, John (2011). Applied Statistics for Public and Nonprofit Administration 3rd ed. Boston, MA: Cengage Learning. pp. 189–209. ISBN 1-111-34280-6 
  40. Healy, Joseph F. (2009). The Essentials of Statistics: A Tool for Social Research 2nd ed. Belmont, CA: Cengage Learning. pp. 177–205. ISBN 0-495-60143-8 
  41. McKillup, Steve (2006). Statistics Explained: An Introductory Guide for Life Scientists 1st ed. Cambridge, UK: Cambridge University Press. pp. 32–38. ISBN 0-521-54316-9 
  42. Health, David (1995). An Introduction To Experimental Design And Statistics For Biology 1st ed. Boston, MA: CRC press. pp. 123–154. ISBN 1-857-28132-2 
  43. Myers, Jerome L.; Well, Arnold D.; Lorch, Jr., Robert F. (2010). «Developing fundamentals of hypothesis testing using the binomial distribution». Research design and statistical analysis 3rd ed. New York, NY: Routledge. pp. 65–90. ISBN 0-805-86431-8 
  44. Hinton, Perry R. (2010). «Significance, error, and power». Statistics explained 3rd ed. New York, NY: Routledge. pp. 79–90. ISBN 1-848-72312-1 
  45. a b Vaughan, Simon (2013). Scientific Inference: Learning from Data 1st ed. Cambridge, UK: Cambridge University Press. pp. 146–152. ISBN 1-107-02482-X 
  46. Bracken, Michael B. (2013). Risk, Chance, and Causation: Investigating the Origins and Treatment of Disease 1st ed. New Haven, CT: Yale University Press. pp. 260–276. ISBN 0-300-18884-6 
  47. Franklin, Allan (2013). «Prologue: The rise of the sigmas». Shifting Standards: Experiments in Particle Physics in the Twentieth Century 1st ed. Pittsburgh, PA: University of Pittsburgh Press. pp. Ii–Iii. ISBN 0-822-94430-8 
  48. Clarke, GM; Anderson, CA; Pettersson, FH; Cardon, LR; Morris, AP; Zondervan, KT (6 de fevereiro de 2011). «Basic statistical analysis in genetic case-control studies». Nature Protocols. 6 (2): 121–33. doi:10.1038/nprot.2010.182. PMC 3154648Acessível livremente. PMID 21293453 
  49. Barsh, GS; Copenhaver, GP; Gibson, G; Williams, SM (5 de julho de 2012). «Guidelines for Genome-Wide Association Studies». PLoS Genetics. 8 (7): e1002812. doi:10.1371/journal.pgen.1002812. PMC 3390399Acessível livremente. PMID 22792080 
  50. Heuer, Rolf (2012). «Une Fin D'Année Pleine de Suspense». Bulletin Hebdomadaire du CERN. Consultado em 24 de janeiro de 2017 
  51. LIGO Scientific Collaboration, Virgo Collaboration (2016), «Observation of Gravitational Waves from a Binary Black Hole Merger», Physical Review Letters, 116 (6), arXiv:1602.03837Acessível livremente, doi:10.1103/PhysRevLett.116.061102, PMID 26918975 
  52. Abbott, B. P. (2016). «Observation of Gravitational Waves from a Binary Black Hole Merger». Physical Review Letters. Consultado em 24 de janeiro de 2017 
  53. Aickin, M; Gensler, H (maio de 1996). «Adjusting for multiple testing when reporting research results: the Bonferroni vs Holm methods». Am J Public Health. 86 (5): 726–728. doi:10.2105/ajph.86.5.726. PMC 1380484Acessível livremente. PMID 8629727 
  54. Mittelhammer, Ron C.; Judge, George G.; Miller, Douglas J. (2000). Econometric Foundations. [S.l.]: Cambridge University Press. pp. 73–74. ISBN 0-521-62394-4 
  55. Miller, Rupert G. (1966). Simultaneous Statistical Inference. [S.l.]: Springer 
  56. Casella, George; Berger, Roger L. (2002). Statistical Inference. [S.l.]: Duxbury. pp. 11–13. ISBN 0-534-24312-6 
  57. Holm, S. (1979). «A simple sequentially rejective multiple test procedure». Scandinavian Journal of Statistics. 6 (2): 65–70. JSTOR 4615733. MR 538597 
  58. Carver, Ronald P. (1978). «The Case Against Statistical Significance Testing». Harvard Educational Review. 48: 378–399 
  59. Ioannidis, John P. A. (2005). «Why most published research findings are false». PLoS Medicine. 2: e124. doi:10.1371/journal.pmed.0020124. PMC 1182327Acessível livremente. PMID 16060722 
  60. Hojat, Mohammadreza; Xu, Gang (2004). «A Visitor's Guide to Effect Sizes». Advances in Health Sciences Education 
  61. Hojat, Mohammadreza; Xu, Gang (2004). «A Visitor's Guide to Effect Sizes». Advances in Health Sciences Education 
  62. Pedhazur, Elazar J.; Schmelkin, Liora P. (1991). Measurement, Design, and Analysis: An Integrated Approach Student ed. New York, NY: Psychology Press. pp. 180–210. ISBN 0-805-81063-3 
  63. Stahel, Werner (2016). «Statistical Issue in Reproducibility». Principles, Problems, Practices, and Prospects Reproducibility: Principles, Problems, Practices, and Prospects: 87-114 
  64. «CSSME Seminar Series: The argument over p-values and the Null Hypothesis Significance Testing (NHST) paradigm  » School of Education  » University of Leeds». www.education.leeds.ac.uk. Consultado em 1 de dezembro de 2016 
  65. Woolston, Chris (5 de março de 2015). «Psychology journal bans P values». Nature. 519 (7541): 9–9. doi:10.1038/519009f 
  66. Siegfried, Tom (17 de março de 2015). «P value ban: small step for a journal, giant leap for science». Science News. Consultado em 1 de dezembro de 2016 
  67. Magalhães, Marcos Nascimento; Lima, Antonio Carlos Pedroso (2007). Noções de Probabilidade e Estatística. São Paulo: EdUSP. 243 páginas 
  68. Magalhães, Marcos Nascimento; Lima, Antonio Carlos Pedroso de (2007). Noções de Probabilidade e Estatística. São Paulo: EdUSP. 244 páginas 
  69. «Testes de Hipótese» (PDF). UFSCAR. p. 1. Consultado em 20 de fevereiro de 2017 

Further reading[editar | editar código-fonte]

External links[editar | editar código-fonte]