"P-hacking", "fishing" e "garden of bifurcação", como explicado aqui e aqui, descrevem um estilo exploratório de análise de dados, semelhante a uma pesquisa que produz estimativas tendenciosas.
O teste de premissas do modelo (por exemplo, normalidade, homocedasticidade em regressão) usa testes estatísticos no mesmo conjunto de dados usado para ajustar o modelo considerado um problema de "p-hacking" ou "jardim de caminhos de bifurcação"?
Os resultados desses testes certamente afetam o modelo que o pesquisador finalmente escolhe.
Respostas:
Não é exatamente a mesma coisa, no sentido de que a prática de testar se as suposições foram violadas pretendia originalmente garantir uma análise apropriada, mas, como se vê, tem algumas das mesmas consequências (veja, por exemplo, esta pergunta ) . Mas é de uma forma mais branda do que as variantes mais extremas de hackers p que são especificamente direcionadas para obter o valor de p para o efeito de interesse abaixo de 0,05. Isto é, a menos que você comece a combinar várias práticas problemáticas (por exemplo, verificação de normalidade, verificação de homocedasticidade, verificação de covariáveis que "deveriam" estar no modelo, verificação de linearidade de covariáveis, verificação de interações etc.). Não tenho certeza se alguém analisou o quanto isso invalida a análise final.
Obviamente, a outra questão é que testar a normalidade normalmente não é significativo (veja, por exemplo, esta discussão ). Para amostras pequenas, você não recebe desvios maciços que violam realmente suas suposições, enquanto para amostras grandes, por exemplo, o teste t se torna bastante robusto, mas o teste de normalidade começará a detectar pequenos desvios que não importam. É muito melhor (sempre que possível) especificar um modelo apropriado com base em dados anteriores ou no conhecimento do assunto. Quando isso não for possível, talvez seja melhor usar métodos mais robustos para violações de premissas distributivas ou que não tenham nenhum / menos.
fonte
Não creio que verificar as suposições de qualquer modelo seja qualificado como p-hacking / fishing. No primeiro artigo, o autor está falando sobre analistas que estão repetidamente realizando análises em um conjunto de dados e relatando apenas o melhor resultado. Em outras palavras, eles estão propositalmente retratando uma imagem tendenciosa do que está acontecendo nos dados.
Testar as premissas de regressão ou qualquer modelo é obrigatório. O que não é obrigatório é repetir a amostragem repetida dos dados para determinar o melhor resultado possível. Supondo que os pesquisadores tenham uma amostra grande o suficiente para extrair, às vezes eles recolhem amostras repetidas vezes ... realizam testes de hipóteses repetidas vezes ... até atingirem o resultado desejado. Daí p-hacking. Eles estão hackeando o valor-p procurando o resultado desejado e não desistem até encontrá-lo (pescar). Portanto, mesmo que de 100 testes de hipótese eles atinjam apenas 1 com um resultado significativo, eles reportarão o valor p pertencente a esse teste específico e omitirão todos os outros.
Isso faz sentido? Ao verificar as suposições do modelo, você garante que o modelo seja apropriado para os dados que você possui. Com p-hacking / fishing, você procura incessantemente os dados / manipula o estudo para alcançar o resultado desejado.
Quanto ao objetivo de comparação múltipla, se você continuar executando um modelo na lama sem parar tentando encontrar uma maneira de invalidá-lo (ou validá-lo), eventualmente encontrará um caminho. Isso é pescar. Se você deseja validar um modelo, encontrará uma maneira. Se você deseja invalidá-lo, encontrará uma maneira. A chave é ter uma mente aberta e descobrir a verdade - não apenas ver o que você deseja ver.
fonte