Interpretação do valor-p no teste de hipóteses

36

Recentemente, deparei com o artigo "A Insignificância do Teste de Significância de Hipótese Nula", Jeff Gill (1999) . O autor levantou algumas concepções errôneas comuns sobre testes de hipóteses e valores de p, sobre os quais tenho duas perguntas específicas:

  1. O valor p é tecnicamente , que, como apontado pelo artigo, geralmente não nos diz nada sobre , a menos que conheçamos as distribuições marginais, o que raramente acontece no teste de hipóteses "cotidiano". Quando obtemos um pequeno valor p e "rejeitamos a hipótese nula", qual é exatamente a afirmação probabilística que estamos fazendo, pois não podemos dizer nada sobre ?P(observation|H0)P ( H 0 | o b s e r v a t i o n )P(H0|observation)P(H0|observation)
  2. A segunda pergunta refere-se a uma declaração específica da página 6 (652) do artigo:

Como o valor-p, ou intervalo de valores-p indicado por estrelas, não é definido a priori, não é a probabilidade a longo prazo de cometer um erro do tipo I, mas normalmente é tratado como tal.

Alguém pode ajudar a explicar o que significa essa declaração?

- Reinstate Monica
fonte
TY para a referência ao artigo #
Ludovic Kuty
@ezbentley: talvez seja interessante dar uma olhada na minha resposta: stats.stackexchange.com/questions/166323/…

Respostas:

33

(Tecnicamente, o valor P é a probabilidade de observar dados pelo menos tão extremos quanto os realmente observados, dada a hipótese nula.)

Q1 Uma decisão de rejeitar a hipótese nula com base em um pequeno valor P normalmente depende da 'disjunção de Fisher': um evento raro ocorreu ou a hipótese nula é falsa. Com efeito, é raridade do evento o que o valor P diz, e não a probabilidade de que o nulo seja falso.

A probabilidade de que o nulo seja falso pode ser obtida a partir dos dados experimentais apenas pelo teorema de Bayes, que exige a especificação da probabilidade 'anterior' da hipótese nula (presumivelmente o que Gill se refere como "distribuições marginais").

Q2 Esta parte da sua pergunta é muito mais difícil do que parece. Há muita confusão em relação aos valores P e taxas de erro, que é, presumivelmente, o que Gill está se referindo com ", mas geralmente é tratado como tal". A combinação dos valores P dos pescadores com as taxas de erro de Neyman-Pearsonian foi denominada uma confusão incoerente e, infelizmente, é muito difundida. Nenhuma resposta curta será completamente adequada aqui, mas posso apontar alguns bons trabalhos (sim, um é meu). Ambos o ajudarão a entender o artigo da Gill.

Hurlbert, S. & Lombardi, C. (2009). Colapso final do referencial teórico de decisão de Neyman-Pearson e ascensão do neo-pescador. Annales Zoologici Fennici, 46 (5), 311-349. (Link para o artigo)

Lew, MJ (2012). Má prática estatística em farmacologia (e outras disciplinas biomédicas básicas): você provavelmente não conhece P. British Journal of Pharmacology, 166 (5), 1559-1567. doi: 10.1111 / j.1476-5381.2012.01931.x (link para artigo)

Michael Lew
fonte
Obrigado pelo esclarecimento. É tecnicamente incorreto fazer uma declaração como "the small p-value indicates that the sample mean(or regression coefficient, etc) is significantly different from zero"? A fonte da confusão parece ser que nenhuma alegação probabilística real está sendo feita para a hipótese nula quando dizemos que o nulo é "rejeitado".
2
@ezbentley, isso realmente depende do que você quer dizer com significante. Essa palavra não é realmente muito significativa na maioria dos contextos, porque foi contaminada pelo híbrido Fisher-Neyman-Pearson. Se você obteve um valor P muito pequeno, é justo dizer que a média verdadeira provavelmente não é zero, mas é importante dizer qual foi a média observada e indicar sua variabilidade (SEM ou intervalo de confiança) e não ' não esqueça de dizer qual era o tamanho da amostra. Um valor P não substitui a especificação do tamanho do efeito observado.
Michael Lew
Obrigado pela explicação. Preciso me aprofundar no paradigma Fisher e Neyman-Pearson.
@ Michael Lew: Talvez possa ser interessante dar uma olhada na minha resposta: stats.stackexchange.com/questions/166323/…
Seu parágrafo no primeiro trimestre é provavelmente a melhor explicação para o problema que vi até agora. Obrigado.
precisa saber é o seguinte
22

+1 para @MichaelLew, que forneceu uma boa resposta. Talvez eu ainda possa contribuir, fornecendo uma maneira de pensar sobre o Q2. Considere a seguinte situação:

  • A hipótese nula é verdadeira. (Observe que, se a hipótese nula não for verdadeira, nenhum erro do tipo I será possível e não está claro qual o significado do valor- .) p
  • 0,05α foi definido convencionalmente em . 0.05
  • O valor calculado é . 0,01p0.01

pp0.02p0.049¯pα

p

- Reinstate Monica
fonte
1
Trabalhando em um campo (epi) em que muitas vezes é extremamente difícil acreditar que a hipótese H_0 = 0 é realmente verdadeira, acho que esse ponto é esquecido e merece muito mais atenção.
Boscovich
1
α
1
+1, mas a sugestão de que o significado de um valor P não é clara quando o nulo é falso é enganosa. Quanto menor o valor P, maior a discrepância entre o nulo e o observado. Quanto maior o tamanho da amostra, mais próximo se pode supor que o tamanho real do efeito é o tamanho observado. É muito útil notar que o teste de significância é análogo à estimativa.
Michael Lew
3
@ MichaelLew, não tenho certeza de que o valor p signifique essas coisas por conta própria. Em conjunto w / N (e especificamente, mantendo N constante), um p menor corresponderá a uma discrepância maior b / t a nula e observada. Mesmo assim, isso é mais algo que pode ser inferido de p do que algo que p significa . Também é verdade que os tamanhos de efeito observado com N maiores devem estar mais próximos dos ES verdadeiros, mas é menos claro para mim qual o papel que p desempenha lá. EG, com um falso nulo, o efeito verdadeiro ainda pode ser muito pequeno, e com um grande N, esperamos que o ES observado esteja próximo, mas p ainda pode ser grande.
gung - Restabelece Monica
1
...this fallacy shows up in statistics textbooks, as when Canavos and Miller (1999, p.255) stipulate: "If the null hypothesis is true, then a type I error occurs if (due to sampling error) the P-value is less than or equal to $alpha$"α
8

Eu gostaria de fazer um comentário relacionado à "insignificância do teste de significância de hipótese nula", mas que não responde à pergunta do OP.

pH0H0:{θ=0}θ=ϵϵϵ0ϵ0

Stéphane Laurent
fonte
3
+1 Sim, o verdadeiro problema do teste de hipóteses convencional é que ele responde a uma pergunta que você não está realmente interessado em ter respondido, ou seja, "existe evidência significativa de uma diferença?", Em vez de "existe evidência de uma diferença significativa? " É claro que o que realmente é desejado é geralmente "qual é a probabilidade de que minha hipótese de pesquisa seja verdadeira?", Mas isso não pode ser respondido dentro de uma estrutura freqüentista. A má interpretação geralmente surge de tentativas de tratar o teste freqüentista em termos bayesianos.
Dikran Marsupial
1
Não é uma boa ideia separar o significado dos valores P e tamanho da amostra. Um valor P menor indica um tamanho de efeito maior em qualquer tamanho de amostra específico e, para qualquer valor P específico, um tamanho de amostra maior indica que o tamanho real do efeito provavelmente está mais próximo do tamanho do efeito observado. Testes de significância devem ser pensados ​​no contexto da estimativa, não erros. Uma amostra maior sempre fornece mais informações - como interpretá-la depende do pesquisador. A grande amostra de queixa de efeito insignificante é apenas um problema para o teste de hipótese de Neyman-Pearson.
Michael Lew