Eu estava lendo este artigo sobre o fator Bayes para um problema completamente não relacionado quando me deparei com essa passagem
O teste de hipóteses com fatores de Bayes é mais robusto do que o teste freqüente de hipóteses, uma vez que a forma bayesiana evita o viés de seleção do modelo, avalia evidências a favor da hipótese nula, inclui a incerteza do modelo e permite a comparação de modelos não aninhados (embora, é claro, o modelo deva tem a mesma variável dependente). Além disso, testes de significância freqüentes tornam-se tendenciosos em favor da rejeição da hipótese nula com tamanho de amostra suficientemente grande. [enfase adicionada]
Eu já vi essa afirmação antes no artigo de Karl Friston em 2012 na NeuroImage , onde ele chama de falácia da inferência clássica .
Eu tive alguns problemas para encontrar uma explicação verdadeiramente pedagógica sobre por que isso deveria ser verdade. Especificamente, estou me perguntando:
- por que isso ocorre
- como se proteger
- falhando nisso, como detectá-lo
Respostas:
Resposta à pergunta 1: Isso ocorre porque o valor- se torna arbitrariamente pequeno à medida que o tamanho da amostra aumenta em testes freqüentes de diferença (ou seja, testes com uma hipótese nula de nenhuma diferença / alguma forma de igualdade) quando uma diferença verdadeira exatamente igual a zero , ao contrário de arbitrariamente próximo de zero, não é realista (veja o comentário de Nick Stauner ao OP). O valor se torna arbitrariamente pequeno porque o erro das estatísticas de teste freqüentes geralmente diminui com o tamanho da amostra, com a conclusão de que todas as diferenças são significativas para um nível arbitrário com um tamanho de amostra grande o suficiente . Cosma Shalizi escreveu eruditamente sobre isso .pp p
Resposta à pergunta 2: Dentro de uma estrutura de teste de hipóteses freqüente, pode-se evitar isso, não fazendo inferência apenas sobre a detecção de diferença . Por exemplo, pode-se combinar inferências sobre diferença e equivalência para não favorecer (ou conflitar!) O ônus da prova na evidência de efeito versus evidência de ausência de efeito . A evidência de ausência de um efeito vem, por exemplo:
O que essas abordagens compartilham é uma decisão a priori sobre o tamanho do efeito que constitui uma diferença relevante e uma hipótese nula enquadrada em termos de uma diferença pelo menos tão grande quanto o que é considerado relevante.
A inferência combinada de testes de diferença e testes de equivalência, portanto, protege contra o viés que você descreve quando os tamanhos de amostra são grandes dessa maneira (tabela dois a dois mostrando as quatro possibilidades resultantes de testes combinados de diferença - hipótese nula positivista, H - e equivalência - hipótese nula negativista, H ):- 0+0 −0
Observe o quadrante superior esquerdo: um teste sobrecarregado é aquele em que sim, você rejeita a hipótese nula de nenhuma diferença, mas também rejeita a hipótese nula de diferença relevante; portanto, sim, há uma diferença, mas a priori decidiu que não se importa. porque é muito pequeno.
Resposta à pergunta 3: Veja a resposta para 2.
fonte
Testes freqüentistas com amostras grandes NÃO exibem viés no sentido de rejeitar a hipótese nula se a hipótese nula for verdadeira. Se as premissas do teste forem válidas e a hipótese nula for verdadeira, não haverá mais risco de uma amostra grande levar à rejeição da hipótese nula do que uma amostra pequena. Se o nulo não for verdadeiro, certamente teremos o prazer de rejeitá-lo; portanto, o fato de uma amostra grande rejeitar com mais freqüência um nulo falso do que uma amostra pequena não é um viés, mas um comportamento apropriado.
O medo de "experimentos dominados" baseia-se no pressuposto de que não é bom rejeitar a hipótese nula quando ela é quase verdadeira. Mas se é apenas quase verdade, então é realmente falsa! Rejeite, mas não deixe de perceber (e relatar claramente) o tamanho do efeito observado. Pode ser trivialmente pequeno e, portanto, não merece consideração séria, mas uma decisão sobre esse assunto deve ser tomada após a consideração de informações externas ao teste de hipóteses.
fonte