Johansson (2011) em " Salve o impossível: valores-p, evidência e probabilidade " (aqui também está link para o periódico ) afirma que valores- mais baixos são frequentemente considerados como evidência mais forte contra o nulo. Johansson implica que as pessoas considerariam mais forte a evidência contra o nulo se o teste estatístico desse um valor de , do que se o teste estatístico desse um valor de . Johansson lista quatro razões pelas quais o valor- não pode ser usado como evidência contra o nulo:
- é distribuído uniformemente sob a hipótese nula e, portanto, nunca pode indicar evidências para o nulo.
- é condicionado unicamente à hipótese nula e, portanto, não é adequado para quantificar a evidência, porque a evidência é sempre relativa no sentido de ser evidência a favor ou contra uma hipótese relativa a outra hipótese.
- designa a probabilidade de obter evidência (dado o nulo), em vez da força da evidência.
- depende de dados não observados e intenções subjetivas e, portanto, implica, dada a interpretação evidencial, que a força evidencial dos dados observados depende de coisas que não aconteceram e de intenções subjetivas.
Infelizmente, não consigo entender intuitivamente o artigo de Johansson. Para mim, um valor de 0,01 indica que há menos chance do nulo ser verdadeiro do que um valor p de 0,45 . Por que os valores p mais baixos não são evidências mais fortes contra nulo?
Respostas:
Minha avaliação pessoal de seus argumentos:
Sua sugestão de usar a razão de verossimilhança como uma medida de evidência é na minha opinião uma boa (mas aqui a idéia de um fator de Bayes é mais geral), mas no contexto em que ele a traz é um pouco peculiar: primeiro ele sai os motivos dos testes nos Pescadores em que não há hipótese alternativa para calcular a razão de verossimilhança. Mas como evidência contra o Nulo é Pescador. Por isso, ele confunde Fisher e Neyman-Pearson. Segundo, a maioria das estatísticas de teste que usamos são (funções) da razão de verossimilhança e, nesse caso, p é uma transformação da razão de verossimilhança. Como Cosma Shalizi coloca:p p
Aqui é a densidade no estado "sinal" ep ( x ) a densidade no estado "ruído". A medida para "suficientemente provável" iria aqui ser P ( q ( X ) / p ( x ) > t o b s | H 0 ) o qual é p . Note-se que na correcta Neyman-Pearson teste t o b s é substituído por um fixo T ( s ) tal que Pq(x) p(x) P(q(X)/p(x)>tobs∣H0) p tobs t(s) P(q(X)/p(x)>t(s)∣H0)=α
fonte
A razão pela qual argumentos como os de Johansson são reciclados com tanta frequência parece estar relacionada ao fato de que os valores P são índices da evidência contra o nulo, mas não são medidas da evidência. A evidência tem mais dimensões do que qualquer número único pode medir e, portanto, sempre há aspectos da relação entre valores-P e evidências que as pessoas podem achar difíceis.
Revi muitos dos argumentos usados por Johansson em um artigo que mostra a relação entre valores-P e funções de probabilidade e, portanto, evidencia: http://arxiv.org/abs/1311.0081 Infelizmente, esse artigo foi rejeitado três vezes, embora seus argumentos e as evidências para eles não tenham sido refutados. (Parece que é desagradável aos árbitros que têm opiniões como a de Johansson e não erradas.)
fonte
Adding to @Momo's nice answer:
Do not forget multiplicity. Given many independent p-values, and sparse non-trivial effect sizes, the smallest p-values are from the null, with probability tending to1 as the number of hypotheses increases.
So if you tell me you have a small p-value, the first thing I want to know is how many hypotheses you have been testing.
fonte
Is Johansson talking about p-values from two different experiments? If so, comparing p-values may be like comparing apples to lamb chops. If experiment "A" involves a huge number of samples, even a small inconsequential difference may be statistically significant. If experiment "B" involves only a few samples, an important difference may be statistically insignificant. Even worse (that's why I said lamb chops and not oranges), the scales may be totally incomparable (psi in one and kwh in the other).
fonte