Citando a grande resposta de Gung
Alegadamente, um pesquisador abordou Fisher com resultados "não significativos", perguntando o que ele deveria fazer e Fisher disse: "vá buscar mais dados".
De uma perspectiva de Neyman-Pearson, este é flagrante -hacking, mas há um caso de uso onde ir buscar mais dados-de Fisher abordagem faz sentido?
Respostas:
O paradigma freqüentista é uma fusão dos pontos de vista de Fisher e Neyman-Pearson. Somente ao usar uma abordagem e outra interpretação surgem problemas.
Parece estranho para qualquer um que a coleta de mais dados seja problemática, pois mais dados são mais evidências. De fato, o problema não está na coleta de mais dados, mas no uso do valor-p para decidir fazê-lo, quando também é a medida de interesse. Coletando mais dados com base no p -valor só é p -hacking se calcular um novo p -valor.
Se você não possui evidências suficientes para concluir satisfatoriamente a questão da pesquisa, procure todos os dados. No entanto, admita que você já passou do estágio NHST de sua pesquisa e concentre-se em quantificar o efeito do interesse.
Uma observação interessante é que os bayesianos não sofrem com esse dilema. Considere o seguinte como um exemplo:
fonte
Dado um tamanho de amostra grande o suficiente, um teste sempre mostrará resultados significativos, a menos que o tamanho real do efeito seja exatamente zero, conforme discutido aqui . Na prática, o tamanho real do efeito não é zero, portanto, a coleta de mais dados poderá detectar as diferenças mais minúsculas.
A resposta faceta (IMO) de Fisher foi em resposta a uma pergunta relativamente trivial que, em sua premissa, está confluindo "diferença significativa" com "diferença praticamente relevante".
Seria o equivalente a um pesquisador entrar no meu consultório e perguntar: "Eu pesei esse peso de chumbo rotulado '25 gramas 'e medi 25,0 gramas. Acredito que seja um rótulo incorreto, o que devo fazer?" Para o qual eu poderia responder: "Obtenha uma escala mais precisa".
Acredito que a abordagem de obter mais dados é apropriada se o teste inicial estiver com uma potência insuficiente para detectar a magnitude da diferença que é praticamente relevante.
fonte
Obrigado. Há algumas coisas a serem lembradas aqui:
fonte
O que chamamos de P-hacking é a aplicação de um teste de significância várias vezes e o relatório apenas dos resultados de significância. Se isso é bom ou ruim, é dependente da situação.
Para explicar, vamos pensar nos efeitos verdadeiros em termos bayesianos, em vez de hipóteses nulas e alternativas. Enquanto acreditamos que nossos efeitos de interesse provêm de uma distribuição contínua, sabemos que a hipótese nula é falsa. No entanto, no caso de um teste bilateral, não sabemos se é positivo ou negativo. Sob essa luz, podemos pensar nos valores de p para testes bilaterais como uma medida de quão forte é a evidência de que nossa estimativa tem a direção correta (ou seja, efeito positivo ou negativo).
Agora, considere o que acontece quando você volta para obter mais dados. Cada vez que você obtém mais dados, sua probabilidade de obter a direção correta condicional com base em dados suficientes aumenta apenas. Portanto, nesse cenário, devemos perceber que, ao obter mais dados, embora de fato aumentemos a probabilidade de um erro do tipo I, também estamos reduzindo a probabilidade de concluir erroneamente a direção errada.
Veja isso em contraste com o abuso mais típico de hackers P; testamos centenas de tamanhos de efeitos com boa probabilidade de serem muito pequenos e relatamos apenas os significativos. Observe que, neste caso, se todos os efeitos forem pequenos, temos uma chance de quase 50% de errar na direção ao declararmos significado.
Obviamente, os valores de p produzidos a partir dessa duplicação de dados ainda devem vir com um grão de sal. Embora, em geral, você não deva ter problemas com pessoas que coletam mais dados para ter mais certeza sobre o tamanho de um efeito, isso pode ser abusado de outras maneiras. Por exemplo, um PI inteligente pode perceber que, em vez de coletar todos os 100 pontos de dados de uma só vez, eles poderiam economizar muito dinheiro e aumentar o poder coletando 50 pontos de dados, analisando os dados e, em seguida, coletando os próximos 50, se não for significativo . Nesse cenário, eles aumentam a probabilidade de obter a direção do efeito incorreta, dependendo da declaração de significância, uma vez que têm mais probabilidade de errar a direção do efeito com 50 pontos de dados do que com 100 pontos de dados.
E, finalmente, considere as implicações de não obter mais dados quando tivermos um resultado insignificante. Isso implicaria nunca coletar mais informações sobre o tema, o que realmente não impulsionará a ciência, não é? Um estudo com pouca capacidade mataria um campo inteiro.
fonte
Se a alternativa tiver uma pequena probabilidade a priori , um experimento que não rejeitar o nulo diminuirá ainda mais, tornando qualquer pesquisa adicional ainda menos econômica. Por exemplo, suponha que a probabilidade a priori seja 0,01. Então sua entropia é 0,08 bits. Se a probabilidade for reduzida para 0,001, sua entropia será agora 0,01. Portanto, continuar coletando dados geralmente não é rentável. Uma razão pela qual seria rentável seria que o conhecimento é tão importante que vale a pena reduzir os restantes 0,01 bits de entropia.
Outra razão seria se a probabilidade a priori fosse realmente alta. Se sua probabilidade a priori for superior a 50%, a falha em rejeitar o nulo aumentará sua entropia, tornando mais econômico a continuação da coleta de dados. Um exemplo seria quando você está quase certo de que há um efeito, mas não sabe em que direção.
Por exemplo, se você é um agente de contrainteligência e tem certeza de que um departamento tem uma toupeira e a reduziu a dois suspeitos, e está fazendo uma análise estatística para decidir qual, um resultado estatisticamente insignificante justificaria a coleta mais dados.
fonte