P-hacking

P-hacking é um termo amplo usado em pesquisa científica para descrever vários tipos de manipulação comumente empregados na análise de dados que levam a resultados estatisticamente significativos mas equivocados ou enganosos.

Os testes convencionais de significância são baseados na probabilidade de que um resultado particular foi obtido puramente por sorte, isso é, não há uma relação real entre os resultados. Dessa forma, eles necessariamente aceitam risco de conclusões equivocadas. Esse nível de risco é chamado de significância (α). Quando vastas quantidades de testes são executados ao mesmo tempo, alguns desses produzem falsos resultados desse tipo, portanto 5% das hipóteses escolhidas ao acaso são estatisticamente significantes a um valor α de 5%. Quando hipóteses suficientes são testadas, é quase certo que algumas delas serão estatísticamente significantes, ainda que ilusórias, visto que praticamente todo conjunto de dados com qualquer grau de aleatoriedade pode conter correlações espúrias. Se não tomarem cuidado, pesquisadores que usam técnicas de mineração de dados podem ser facilmente enganados por esses resultados.

Tirando conclusões dos dados[editar | editar código-fonte]

O procedimento convencional de Inferência frequencista consiste em formular uma hipótese de teste, como por exemplo "pessoas de classes sociais mais altas vivem por mais tempo", coletar dados relevantes e então formular um teste de hipótese para ver quão prováveis esses resultados são de serem obtidos simplesmente por acaso.

Um ponto importante em uma análise estatística feita corretamente é testar uma hipótese com evidência (dados) que não foram utilizados na construção da hipótese. Isso é um aspecto crítico porque todo conjunto de dados contém alguns padrões dados inteiramente por acaso. Se a hipótese não é testada num conjunto diferente da mesma população, é impossível saber a probabilidade de que o acaso puramente produza tais padrões.

Por exemplo, o lançamento de uma moeda cinco vezes, com o resultado de 2 caras e 3 coroas, pode levar alguém a supor que a moeda favorece caras em uma proporção de 3/5 para 2/5. Se essa hipótese é então testada no conjunto existente, ela será confirmada, embora essa confirmação não tenha nenhum significado real. O procedimento adequado seria formular uma hipótese sobre qual é a probabilidade de se obter coroas, e depois lançar a moeda diversas vezes para verificar se a hipótese é rejeitada ou não. Se três coroas e duas caras são observadas, outra hipótese - de que a probabilidade de coroas é 3/5, pode ser formulada, embora possa apenas ser testada por um novo conjunto de lançamentos de moedas. É importante notar que significância estatística sobre os procedimentos incorretos é completamente enganosa - testes de significância não protegem contra p-hacking.

Hipóteses sugeridas por dados não-representativos[editar | editar código-fonte]

Suponha que um estudo de uma amostra aleatória de pessoas inclua exatamente duas pessoas com um aniversário de 7 de agosto: Maria e João. Alguém envolvido em espionagem de dados pode tentar encontrar semelhanças adicionais entre Maria e João. Ao passar por centenas ou milhares de possíveis semelhanças entre os dois, cada um com uma baixa probabilidade de ser verdadeiro, uma semelhança incomum pode quase certamente ser encontrada. Talvez João e Maria sejam as duas únicas pessoas no estudo que mudaram de curso três vezes na faculdade. Uma hipótese, enviesada pela espionagem de dados, poderia então ser "As pessoas nascidas em 7 de agosto têm uma chance muito maior de trocar de curso mais de duas vezes na faculdade".

Os próprios dados apoiam fortemente essa correlação, já que ninguém com um aniversário diferente havia trocado os cursos três vezes na faculdade. No entanto, se (como é provável), essa é uma hipótese espúria, esse resultado provavelmente não será reproduzível; qualquer tentativa de verificar se os outros com um aniversário de 7 de agosto têm uma taxa semelhante de mudança de cursos provavelmente obterá resultados contraditórios quase que imediatamente.

Viés[editar | editar código-fonte]

O viés é um erro sistemático na análise. Por exemplo, alguns médicos orientaram pacientes com HIV de alto risco cardiovascular para um tratamento específico contra o HIV, abacavir, e pacientes de baixo risco para outras drogas, impedindo uma avaliação simples do abacavir em comparação com outros tratamentos. Uma análise que não corrigiu esse viés injustamente culpou o abacavir, uma vez que seus pacientes apresentavam maior risco, de modo que muitos deles tiveram ataques cardíacos.^[1] Esse problema pode ser muito severo, por exemplo, em casos de estudo observacional.^[1]^[2]

Fatores ausentes, fatores de influência não medidos e não-acompanhamento completo dos experimentos também podem levar a um viés.^[1] Ao selecionar artigos com valor p significativo, os estudos com resultados negativos são desconsiderados, o que é o viés de publicação. Isso também é conhecido como Viés do Gabinete de Arquivos, porque os resultados de valor p menos significativos são deixados no gabinete de arquivos e nunca são publicados.

Modelagem múltipla[editar | editar código-fonte]

Outro aspecto do condicionamento do teste estatístico por conhecimento prévio dos dados pode ser observado enquanto se aplica regressão linear. Um passo crucial nesse processo é decidir quais variáveis incluir na análise - em caso de multicolinearidade - para explicar uma ou mais variáveis desejadas. Há considerações estatísticas que levam os autores a preferir um modelo dentre os outros. Entretanto, para descartar uma ou mais variáveis de uma relação com base nos dados, não se pode corretamente aplicar os procedimentos estatísticos padrão com as variáveis retidas como se nada tivesse ocorrido. Nesse tipo de situação, as variáveis retidas devem ter passado por um tipo preliminar de teste (possivelmente intuitivo e impreciso) no qual as variáveis descartadas falharam. Em 1966, Selvin e Stuart compararam variáveis retidas no modelo com peixes que não caem na rede - no sentido que seus efeitos são maiores do que os que caem. Isso não apenas altera a performance de todos os testes subsequentes do modelo retido - pode introduzir viés e alterar o erro quadrático médio.^[3]^[4]

Publicação científica[editar | editar código-fonte]

Antes de se iniciar um experimento deve-se definir os critérios metodológicos que serão adotados, qualquer desvio dos critérios previamente estabelecidos visando a manipulação dos resultados levará a P-hacking e a uma maior probabilidade de obtenção de resultados falso positivos.^[5] A explicação para pesquisadores recorrerem ao uso de P-hacking em suas pesquisas se deve a existência de viés de publicação que favorece estudos com resultados estatisticamente significativos, fazendo com que estes pesquisadores se sintam naturalmente pressionados a encontrarem resultados estatisticamente significativo em seus experimentos.^[6]

Referências

↑ ^a ^b ^c Young, S. S.; Karr, A. (2011). «Deming, data and observational studies» (PDF). Significance. 8 (3): 116–120. doi:10.1111/j.1740-9713.2011.00506.x
↑ Davey Smith, G.; Ebrahim, S. (2002). «Data dredging, bias, or confounding». BMJ. 325 (7378): 1437–1438. PMC 1124898. PMID 12493654. doi:10.1136/bmj.325.7378.1437
↑ Selvin, H.C.; Stuart, A. (1966). «Data-Dredging Procedures in Survey Analysis». The American Statistician. 20 (3): 20–23. JSTOR 2681493. doi:10.1080/00031305.1966.10480401
↑ Berk, R.; Brown, L.; Zhao, L. (2009). «Statistical Inference After Model Selection». J Quant Criminol. 26: 217–236. doi:10.1007/s10940-009-9077-7
↑ Michael Williams, Michael Curtis, Kevin Mullane. Research in the Biomedical Sciences: Transparent and Reproducible. Academic Press, 2017 - 382 páginas, p. 140
↑ Rick Gurnsey. Statistics for Research in Psychology: A Modern Approach Using Estimation. SAGE Publications, 2017 - 720 páginas, parte 431 no Google Livros.

Ver também[editar | editar código-fonte]

Este artigo sobre estatística é um esboço. Você pode ajudar a Wikipédia expandindo-o.

[Deming-1] Young, S. S.; Karr, A. (2011). «Deming, data and observational studies» (PDF). Significance. 8 (3): 116–120. doi:10.1111/j.1740-9713.2011.00506.x

[bmj02-2] Davey Smith, G.; Ebrahim, S. (2002). «Data dredging, bias, or confounding». BMJ. 325 (7378): 1437–1438. PMC 1124898. PMID 12493654. doi:10.1136/bmj.325.7378.1437

[Selvin-3] Selvin, H.C.; Stuart, A. (1966). «Data-Dredging Procedures in Survey Analysis». The American Statistician. 20 (3): 20–23. JSTOR 2681493. doi:10.1080/00031305.1966.10480401

[BerkBrownZhao-4] Berk, R.; Brown, L.; Zhao, L. (2009). «Statistical Inference After Model Selection». J Quant Criminol. 26: 217–236. doi:10.1007/s10940-009-9077-7

[5] Michael Williams, Michael Curtis, Kevin Mullane. Research in the Biomedical Sciences: Transparent and Reproducible. Academic Press, 2017 - 382 páginas, p. 140

[6] Rick Gurnsey. Statistics for Research in Psychology: A Modern Approach Using Estimation. SAGE Publications, 2017 - 720 páginas, parte 431 no Google Livros.

[1]

[2]

[3]

[4]

[5]

[6]