A frase p- hacking (também: "dragagem de dados" , "espionagem" ou "pesca") refere-se a vários tipos de negligência estatística nas quais os resultados se tornam artificialmente estatisticamente significativos. Existem várias maneiras de obter um resultado "mais significativo", incluindo, mas de forma alguma limitado a:
- analisando apenas um subconjunto "interessante" dos dados , no qual um padrão foi encontrado;
- falha no ajuste adequado para vários testes , particularmente testes post-hoc e falha no relatório de testes realizados que não foram significativos;
- tentando testes diferentes da mesma hipótese , por exemplo, um teste paramétrico e um não paramétrico ( há alguma discussão sobre esse tópico ), mas apenas relatando os mais significativos;
- experimentando a inclusão / exclusão de pontos de dados , até que o resultado desejado seja obtido. Uma oportunidade surge quando "dados discrepantes da limpeza de dados", mas também ao aplicar uma definição ambígua (por exemplo, em um estudo econométrico de "países desenvolvidos", definições diferentes produzem conjuntos diferentes de países) ou critérios de inclusão qualitativa (por exemplo, em uma metanálise , pode ser um argumento finamente equilibrado se a metodologia de um determinado estudo é suficientemente robusta para incluir);
- o exemplo anterior está relacionado à parada opcional , ou seja, analisando um conjunto de dados e decidindo se deve coletar mais dados ou não, dependendo dos dados coletados até o momento ("isso é quase significativo, vamos medir mais três alunos!") sem levar em conta isso na análise;
- experimentação durante o ajuste do modelo , especialmente covariáveis a serem incluídas, mas também em relação à transformação de dados / forma funcional.
Então, sabemos que o p- hacking pode ser feito. É frequentemente listado como um dos "perigos do valor- p " e foi mencionado no relatório da ASA sobre significância estatística, discutido aqui no Cross Validated , então também sabemos que é uma coisa ruim. Embora algumas motivações duvidosas e (particularmente na competição pela publicação acadêmica) incentivos contraproducentes sejam óbvios, suspeito que seja difícil descobrir por que isso foi feito, seja por negligência deliberada ou por simples ignorância. Alguém relatando valores de p a partir de uma regressão gradual (porque eles acham procedimentos passo a passo "produzem bons modelos", mas não estão cientes da suposta p-Valores são invalidadas) é neste último campo, mas o efeito é ainda p -hacking sob o último dos meus pontos acima.
Certamente há evidências de que o hackear p está "lá fora", por exemplo, Head et al (2015) procura sinais indicadores de que ele está infectando a literatura científica, mas qual é o estado atual de nossa base de evidências sobre isso? Estou ciente de que a abordagem adotada por Head et al não foi isenta de controvérsias; portanto, o estado atual da literatura ou o pensamento geral na comunidade acadêmica seria interessante. Por exemplo, temos alguma idéia sobre:
- Quão prevalente é e em que medida podemos diferenciar sua ocorrência do viés de publicação ? (Essa distinção é significativa?)
- É o efeito particularmente agudo no fronteira? São efeitos semelhantes visto em p ≈ 0,01 , por exemplo, ou vamos ver faixas inteiras de p -Valores afetado?
- Os padrões no p- hacking variam entre os campos acadêmicos?
- Temos alguma idéia de quais dos mecanismos de hackeamento p (alguns dos quais estão listados nos itens acima) são os mais comuns? Algumas formas provaram ser mais difíceis de detectar do que outras porque são "melhor disfarçadas"?
Referências
Chefe, ML, Holman, L., Lanfear, R., Kahn, AT, & Jennions, MD (2015). A extensão e as consequências do p- hacking na ciência . PLoS Biol , 13 (3), e1002106.
fonte
Respostas:
RESUMO EXECUTIVO: se o "p-hacking" deve ser entendido amplamente nos caminhos de bifurcação de La Gelman, a resposta para a sua predominância é que é quase universal.
Andrew Gelman gosta de escrever sobre esse tópico e tem postado bastante sobre isso ultimamente em seu blog. Nem sempre eu concordo com ele, mas gosto da perspectiva dele sobre op hacking. Aqui está um trecho do artigo Introdução ao seu Garden of Forking Paths (Gelman & Loken 2013; uma versão apareceu no American Scientist 2014; veja também o breve comentário de Gelman sobre a declaração da ASA), com ênfase na minha:
Então: Gelman não gosta do termo p-hacking porque implica que as pesquisas estavam trapaceando ativamente. Considerando que os problemas podem ocorrer simplesmente porque os pesquisadores escolhem qual teste executar / relatar após examinar os dados, ou seja, depois de fazer algumas análises exploratórias.
Com alguma experiência de trabalho em biologia, posso dizer com segurança que todo mundo faz isso. Todo mundo (inclusive eu) coleta alguns dados apenas com hipóteses a priori vagas, faz extensas análises exploratórias, realiza vários testes de significância, coleta mais dados, executa e executa novamente os testes e, finalmente, relata alguns valores-p no manuscrito final. Tudo isso está acontecendo sem trapacear ativamente, fazer buracos na escolha de cerejas no estilo xkcd-jujubas ou conscientemente hackear qualquer coisa.
Portanto, se o "p-hacking" deve ser entendido amplamente nos caminhos de bifurcação de La Gelman, a resposta para a sua predominância é que é quase universal.
As únicas exceções que vêm à mente são estudos de replicação totalmente pré-registrados em psicologia ou ensaios médicos totalmente pré-registrados.
Evidência específica
Divertidamente, algumas pessoas consultaram pesquisadores para descobrir que muitos admitem fazer algum tipo de hacking ( John et al. 2012, Medindo a prevalência de práticas questionáveis de pesquisa com incentivos para contar a verdade ):
Além disso, todos ouviram falar da chamada "crise de replicação" na psicologia: mais da metade dos estudos recentes publicados nos principais periódicos de psicologia não se replicam ( Nosek et al. 2015, Estimando a reprodutibilidade da ciência psicológica ). (Este estudo foi publicado recentemente em todos os blogs, porque a edição de março de 2016 da Science publicou um Comentário tentando refutar Nosek et al. E também uma resposta de Nosek et al. A discussão continuou em outro lugar, ver post de Andrew Gelman e do RetractionWatch post que ele vincula. Para colocar de forma educada, a crítica não é convincente.)
Atualização em novembro de 2018: Kaplan e Irvin, 2017, a probabilidade de efeitos nulos de grandes ensaios clínicos do NHLBI aumentou ao longo do tempo, mostrando que a fração de ensaios clínicos que relatam resultados nulos aumentou de 43% para 92% após a necessidade do pré-registro:
Head et al. 2015
Não ouvi falar de Head et al. estudaram antes, mas agora passaram algum tempo pesquisando a literatura ao redor. Também dei uma breve olhada em seus dados brutos .
E além disso, o efeito é pequeno .
Mascicampo e Lalande
Isso parece impressionante, mas Lakens 2015 ( pré-impressão ) em um Comentário publicado argumenta que isso só parece impressionante graças ao ajuste exponencial enganoso. Veja também Lakens 2015, Sobre os desafios de tirar conclusões a partir de valores-p logo abaixo de 0,05 e suas referências.
Economia
Falsamente tranquilizador?
Uri Simonsohn argumenta que isso é "falsamente tranquilizador" . Bem, na verdade ele cita esses trabalhos de forma não crítica, mas depois observa que "a maioria dos valores de p é bem menor" que 0,05. Então ele diz: "Isso é reconfortante, mas falsamente reconfortante". E aqui está o porquê:
Isso faz total sentido. Analisando todos os relatóriosp p p p
Conclusões
fonte
simply because the researches chose what test to perform/report after looking at the data
Sim; e o problema é inevitável porque é de dois gumes. Quando um método melhor está sendo escolhido para os dados - é um ajuste excessivo dessa amostra específica ou uma reunião de solicitações técnicas dessa população? Ou - removendo outliers - está fingindo ou recuperando a população? Quem dirá, afinal?Os gráficos de funil foram uma inovação estatística tremenda que virou metanálise de cabeça para baixo. Basicamente, um gráfico de funil mostra a significância clínica e estatística no mesmo gráfico. Idealmente, eles formariam uma forma de funil. No entanto, várias metanálises produziram gráficos de funil que mostram uma forte forma bimodal, em que os pesquisadores (ou editores) reteram seletivamente os resultados nulos. O resultado é que o triângulo se torna mais amplo, porque estudos menores e menos potentes usavam métodos mais drásticos para "incentivar" os resultados a alcançar significância estatística. A equipe do Relatório Cochrane tem isso a dizer sobre eles .
O primeiro gráfico mostra um gráfico simétrico na ausência de viés. O segundo mostra um gráfico assimétrico na presença de viés de relato. O terceiro mostra um gráfico assimétrico na presença de viés, porque alguns estudos menores (círculos abertos) são de menor qualidade metodológica e, portanto, produzem estimativas exageradas de efeitos de intervenção.
Eu suspeito que a maioria dos autores não tem conhecimento dos métodos que eles usam para p-hackear. Eles não acompanham o número geral de modelos em que se encaixam, aplicando critérios de exclusão diferentes ou optando por variáveis de ajuste diferentes a cada vez. No entanto, se eu tivesse que ordenar um processo simples, adoraria ver o número total de modelos adequado. Isso não quer dizer que possa haver razões legítimas para executar novamente os modelos, por exemplo, acabamos de realizar uma análise de Alzheimer sem saber que ApoE havia sido coletado na amostra. Ovo na minha cara, nós reranamos os modelos.
fonte