Por que o teste de hipóteses freqüentista se torna tendencioso para rejeitar a hipótese nula com amostras suficientemente grandes?

46

Eu estava lendo este artigo sobre o fator Bayes para um problema completamente não relacionado quando me deparei com essa passagem

O teste de hipóteses com fatores de Bayes é mais robusto do que o teste freqüente de hipóteses, uma vez que a forma bayesiana evita o viés de seleção do modelo, avalia evidências a favor da hipótese nula, inclui a incerteza do modelo e permite a comparação de modelos não aninhados (embora, é claro, o modelo deva tem a mesma variável dependente). Além disso, testes de significância freqüentes tornam-se tendenciosos em favor da rejeição da hipótese nula com tamanho de amostra suficientemente grande. [enfase adicionada]

Eu já vi essa afirmação antes no artigo de Karl Friston em 2012 na NeuroImage , onde ele chama de falácia da inferência clássica .

Eu tive alguns problemas para encontrar uma explicação verdadeiramente pedagógica sobre por que isso deveria ser verdade. Especificamente, estou me perguntando:

  1. por que isso ocorre
  2. como se proteger
  3. falhando nisso, como detectá-lo
blz
fonte
7
É um tanto discutível, porque não é verdade quando o nulo é literalmente exatamente verdadeiro, mas como esse raramente é o caso (devido a todo tipo de complexidade, como correlações espúrias), provavelmente é verdade para as aplicações mais práticas. Hipoteticamente, é possível detectar as correlações espúrias mais fracas (por exemplo, r = 0,001) devido a uma cadeia de mediadores com centenas de variáveis, apesar de um número semelhante de moderadores não controlados se a amostra for colossal o suficiente. Indiscutivelmente, essa relação realmente existe, porém, assim se isso é realmente "viés" ainda é um pouco discutível IMO ...
Nick Stauner
@ NickStauner, Ah, isso realmente faz muito sentido! Obrigado pela explicação intuitiva!
blz 22/07
3
Tal Yarkoni escreveu uma crítica muito esclarecedor da de Friston artigo: talyarkoni.org/blog/2012/04/25/...
Jona
@ jona, parece que eu estou correndo para toda a multidão cogsci por aqui =) Obrigado pela referência, isso realmente parece uma boa leitura!
blz 22/07
8
Dadas as suposições, essa afirmação parece estritamente falsa do jeito que está, mas está chegando a um problema real (que, com amostras suficientemente grandes, um NHST se tornará quase certo de rejeitar um nulo falso, por menor que seja o efeito) . Quando as pessoas acham que é um problema, geralmente indica que o teste de hipóteses não é o que eles precisam. O mesmo problema básico (embora enquadrado em termos de ICs em vez de testes de hipóteses) é discutido nesta resposta
Glen_b

Respostas:

44

Resposta à pergunta 1: Isso ocorre porque o valor- se torna arbitrariamente pequeno à medida que o tamanho da amostra aumenta em testes freqüentes de diferença (ou seja, testes com uma hipótese nula de nenhuma diferença / alguma forma de igualdade) quando uma diferença verdadeira exatamente igual a zero , ao contrário de arbitrariamente próximo de zero, não é realista (veja o comentário de Nick Stauner ao OP). O valor se torna arbitrariamente pequeno porque o erro das estatísticas de teste freqüentes geralmente diminui com o tamanho da amostra, com a conclusão de que todas as diferenças são significativas para um nível arbitrário com um tamanho de amostra grande o suficiente . Cosma Shalizi escreveu eruditamente sobre isso .ppp

Resposta à pergunta 2: Dentro de uma estrutura de teste de hipóteses freqüente, pode-se evitar isso, não fazendo inferência apenas sobre a detecção de diferença . Por exemplo, pode-se combinar inferências sobre diferença e equivalência para não favorecer (ou conflitar!) O ônus da prova na evidência de efeito versus evidência de ausência de efeito . A evidência de ausência de um efeito vem, por exemplo:

  1. dois testes unilaterais de equivalência (TOST),
  2. testes uniformemente mais poderosos para equivalência , e
  3. a abordagem do intervalo de confiança à equivalência (ou seja, se o IC de % da estatística de teste estiver dentro do intervalo a priori / definido de equivalência / relevância, então conclui-se a equivalência no nível de significância ).α12αα

O que essas abordagens compartilham é uma decisão a priori sobre o tamanho do efeito que constitui uma diferença relevante e uma hipótese nula enquadrada em termos de uma diferença pelo menos tão grande quanto o que é considerado relevante.

A inferência combinada de testes de diferença e testes de equivalência, portanto, protege contra o viés que você descreve quando os tamanhos de amostra são grandes dessa maneira (tabela dois a dois mostrando as quatro possibilidades resultantes de testes combinados de diferença - hipótese nula positivista, H - e equivalência - hipótese nula negativista, H ):- 00+0

Quatro possibilidades de testes combinados para diferença e testes para equivalência

Observe o quadrante superior esquerdo: um teste sobrecarregado é aquele em que sim, você rejeita a hipótese nula de nenhuma diferença, mas também rejeita a hipótese nula de diferença relevante; portanto, sim, há uma diferença, mas a priori decidiu que não se importa. porque é muito pequeno.

Resposta à pergunta 3: Veja a resposta para 2.

Alexis
fonte
2
Respostas como esta são por que continuo vindo aqui. Obrigado!
blz 22/07
2
Esses testes combinados são chamados de "testes de relevância" e ainda pouco estudados. No entanto, uma decisão de relevância (conservadora) pode ser encontrada se alguém rejeitar a hipótese nula, se o intervalo de confiança usual for desconsiderado da região de relevância. Então, @Alexis, no caso de testes de relevância, você faz , no caso de testes de equivalência, você faz . α 2 α1αα2α
Horst Grünbusch
Para complementar a resposta à pergunta 1, uma postagem de blog relevante de Cosma Shalizi
2
Estou um pouco surpreso que todos achem essa pergunta tão útil, embora a "Resposta à pergunta 1" seja realmente muito mais adequadamente respondida por Michael Lew - Alexis, pois parece quase claro que isso continuará funcionando, talvez você possa corrigir sua resposta dizer que, matematicamente falando, os testes de hipóteses não são, de fato, baseados no tamanho grande da amostra, de acordo com a definição normal de viés (o contrário, na verdade, o tamanho pequeno da amostra pode ser um problema)!
Florian Hartig 21/01
3
Entendo o problema e concordo com a avaliação - não é informativo ou enganoso fazer um teste de hipótese quando! H0 é infinitamente provável em primeiro lugar e você tem poder próximo a 1. Mas isso não torna o teste tendencioso, a menos que sua definição de viés seja que um método dê o resultado certo a uma pergunta que você acha que não deveria ser feita.
Florian Hartig 23/01
21

Testes freqüentistas com amostras grandes NÃO exibem viés no sentido de rejeitar a hipótese nula se a hipótese nula for verdadeira. Se as premissas do teste forem válidas e a hipótese nula for verdadeira, não haverá mais risco de uma amostra grande levar à rejeição da hipótese nula do que uma amostra pequena. Se o nulo não for verdadeiro, certamente teremos o prazer de rejeitá-lo; portanto, o fato de uma amostra grande rejeitar com mais freqüência um nulo falso do que uma amostra pequena não é um viés, mas um comportamento apropriado.

O medo de "experimentos dominados" baseia-se no pressuposto de que não é bom rejeitar a hipótese nula quando ela é quase verdadeira. Mas se é apenas quase verdade, então é realmente falsa! Rejeite, mas não deixe de perceber (e relatar claramente) o tamanho do efeito observado. Pode ser trivialmente pequeno e, portanto, não merece consideração séria, mas uma decisão sobre esse assunto deve ser tomada após a consideração de informações externas ao teste de hipóteses.

Michael Lew
fonte
2
A crença de que o teste freqüentista não é tendencioso para rejeitar a hipótese nula à medida que o tamanho da amostra aumenta baseia-se no pressuposto de que é significativa e substancialmente diferente de . 0 + realmente muito pequeno00+really frickin' tiny
Alexis
6
@ Alexis Leia o segundo parágrafo novamente. Eu concordo absolutamente que realmente muito pequeno não é substancialmente importante, mas também não é logicamente zero.
Michael Lew
6
Desculpe por um comentário inútil para o público, mas @MichaelLew, gostei muito da sua resposta. A primeira frase é bastante importante e não acho que tenha sido elucidada com eficiência na resposta de Alexis (o que também é legal, é claro).
Richard Hardy