Por que os valores p mais baixos não são mais evidências contra o nulo? Argumentos de Johansson 2011

31

Johansson (2011) em " Salve o impossível: valores-p, evidência e probabilidade " (aqui também está link para o periódico ) afirma que valores- mais pbaixos são frequentemente considerados como evidência mais forte contra o nulo. Johansson implica que as pessoas considerariam mais forte a evidência contra o nulo se o teste estatístico desse um valor p de 0.01 , do que se o teste estatístico desse um valor p de 0.45 . Johansson lista quatro razões pelas quais o valor- p não pode ser usado como evidência contra o nulo:

  1. p é distribuído uniformemente sob a hipótese nula e, portanto, nunca pode indicar evidências para o nulo.
  2. é condicionado unicamente à hipótese nula e, portanto, não é adequado para quantificar a evidência, porque a evidência é sempre relativa no sentido de ser evidência a favor ou contra uma hipótese relativa a outra hipótese.p
  3. designa a probabilidade de obter evidência (dado o nulo), em vez da força da evidência.p
  4. depende de dados não observados e intenções subjetivas e, portanto, implica, dada a interpretação evidencial, que a força evidencial dos dados observados depende de coisas que não aconteceram e de intenções subjetivas.p

Infelizmente, não consigo entender intuitivamente o artigo de Johansson. Para mim, um valor de 0,01 indica que há menos chance do nulo ser verdadeiro do que um valor p de 0,45 . Por que os valores p mais baixos não são evidências mais fortes contra nulo? p0.01p0.45p

luciano
fonte
Olá, @luciano! Vejo que você não aceitou nenhuma resposta neste tópico. Que tipo de resposta você está procurando? Sua pergunta é principalmente sobre os argumentos de Johannson especificamente, ou sobre valores-p mais baixos em geral?
Ameba diz Reinstate Monica
Isso é tudo sobre os quadros freqüentadores de Fisher e Neyman-Pearson. Veja mais nesta resposta por @gung .
Firebug #

Respostas:

21

Minha avaliação pessoal de seus argumentos:

  1. Aqui ele fala sobre o uso de como evidência para o Nulo, enquanto sua tese é que p não pode ser usado como evidência contra o Nulo. Então, acho que esse argumento é amplamente irrelevante.pp
  2. Eu acho que isso é um mal-entendido. O teste Fisher segue fortemente a idéia do Racionalismo Crítico de Popper, que afirma que você não pode apoiar uma teoria, mas apenas criticá-la. Portanto, nesse sentido, existe apenas uma hipótese (o Nulo) e você simplesmente verifica se seus dados estão de acordo com eles.p
  3. Eu discordo aqui. Depende da estatística do teste, mas é geralmente uma transformação de um tamanho de efeito que fala contra o Nulo. Portanto, quanto maior o efeito, menor o valor de p - todas as outras coisas são iguais. Obviamente, para diferentes conjuntos de dados ou hipóteses, isso não é mais válido. p
  4. Eu não estou certo que eu entendo completamente essa afirmação, mas pelo que eu pude perceber isso é menos um problema de a partir de pessoas que o usam de forma errada. O objetivo de p era ter a interpretação da frequência de longo prazo, e esse é um recurso, não um bug. Mas você não pode culpar p por pessoas que usam um único valor de p como prova de sua hipótese ou por pessoas que publicam apenas p < 0,05 . ppppp<.05

Sua sugestão de usar a razão de verossimilhança como uma medida de evidência é na minha opinião uma boa (mas aqui a idéia de um fator de Bayes é mais geral), mas no contexto em que ele a traz é um pouco peculiar: primeiro ele sai os motivos dos testes nos Pescadores em que não há hipótese alternativa para calcular a razão de verossimilhança. Mas como evidência contra o Nulo é Pescador. Por isso, ele confunde Fisher e Neyman-Pearson. Segundo, a maioria das estatísticas de teste que usamos são (funções) da razão de verossimilhança e, nesse caso, p é uma transformação da razão de verossimilhança. Como Cosma Shalizi coloca:pp

entre todos os testes de um determinado tamanho , aquele com a menor probabilidade de falta, ou maior potência, tem a forma "diga 'sinal' se q ( x ) / p ( x ) > t ( s ) , caso contrário diga 'ruído' , "e que o limite t varia inversamente com s . A quantidade q ( x ) / p ( x ) é a razão de verossimilhança; o lema de Neyman-Pearson diz que, para maximizar a potência, deveríamos dizer "sinal" se for suficientemente mais provável que o ruído.sq(x)/p(x)>t(s)tsq(x)/p(x)

Aqui é a densidade no estado "sinal" ep ( x ) a densidade no estado "ruído". A medida para "suficientemente provável" iria aqui ser P ( q ( X ) / p ( x ) > t o b s | H 0 ) o qual é p . Note-se que na correcta Neyman-Pearson teste t o b s é substituído por um fixo T ( s ) tal que Pq(x)p(x)P(q(X)/p(x)>tobsH0)ptobst(s)P(q(X)/p(x)>t(s)H0)=α

Momo
fonte
6
+1 apenas para o ponto 3. Cox descreve o valor-p como uma calibração da razão de verossimilhança (ou outra estatística de teste) e é um ponto de vista que é frequentemente esquecido.
Scortchi - Reinstate Monica
(+1) Boa resposta, @Momo. Gostaria de saber se poderia ser melhorado adicionando algo como "Mas eles são!" em uma fonte grande como o cabeçalho da sua resposta, porque esta parece ser a sua resposta à pergunta do título do OP "Por que valores de p mais baixos não são mais evidências contra o nulo?". Você desmascara todos os argumentos fornecidos, mas não fornece explicitamente uma resposta para a pergunta do título.
Ameba diz Reinstate Monica
1
Eu ficaria um pouco hesitante em fazer isso, é tudo muito sutil e muito dependente de suposições, contextos etc. Por exemplo, você pode negar que declarações probabilísticas podem ser usadas como "evidência" e, portanto, a afirmação está correta. Do ponto de vista dos pescadores, não é. Além disso, eu não diria que desmascara (todos) os argumentos, acho que apenas forneço uma perspectiva diferente e aponto algumas falhas lógicas no argumento. O autor argumenta bem seu argumento e tenta fornecer solução para uma abordagem pertinente que por si só pode ser vista como igualmente problemática.
Momo
9

A razão pela qual argumentos como os de Johansson são reciclados com tanta frequência parece estar relacionada ao fato de que os valores P são índices da evidência contra o nulo, mas não são medidas da evidência. A evidência tem mais dimensões do que qualquer número único pode medir e, portanto, sempre há aspectos da relação entre valores-P e evidências que as pessoas podem achar difíceis.

Revi muitos dos argumentos usados ​​por Johansson em um artigo que mostra a relação entre valores-P e funções de probabilidade e, portanto, evidencia: http://arxiv.org/abs/1311.0081 Infelizmente, esse artigo foi rejeitado três vezes, embora seus argumentos e as evidências para eles não tenham sido refutados. (Parece que é desagradável aos árbitros que têm opiniões como a de Johansson e não erradas.)

Michael Lew
fonte
+1 @Michael Lew, what about changing the title? To P(ee) or not to P(ee) ... doesn't sound like a dilemna. We all know what to do in that situation. =D Joking aside, what were the reasons for your paper to be rejected?
An old man in the sea.
4

Adding to @Momo's nice answer:

Do not forget multiplicity. Given many independent p-values, and sparse non-trivial effect sizes, the smallest p-values are from the null, with probability tending to 1 as the number of hypotheses increases. So if you tell me you have a small p-value, the first thing I want to know is how many hypotheses you have been testing.

JohnRos
fonte
2
It is worth noting that the evidence itself is not affected by multiplicity of testing, even if your response to the evidence might be altered. The evidence in the data is the evidence in the data and it is not affected by any calculations that you may perform in your computer. The typical 'correction' of p-values for multiplicity of testing has to do with preserving false positive error rates, not correcting the relationship between the p-value and the experimental evidence.
Michael Lew
1

Is Johansson talking about p-values from two different experiments? If so, comparing p-values may be like comparing apples to lamb chops. If experiment "A" involves a huge number of samples, even a small inconsequential difference may be statistically significant. If experiment "B" involves only a few samples, an important difference may be statistically insignificant. Even worse (that's why I said lamb chops and not oranges), the scales may be totally incomparable (psi in one and kwh in the other).

Emil Friedman
fonte
3
My impression is that Johansson is not talking about comparing p-values from different experiments. In light of that & @Glen_b's comment, would you mind clarifying your post, Emil? It's fine to raise a related point ('I think J's wrong in context A, but it would have some merit in context B'), but it needs to be clear that that's what you are doing. If you are asking a question or commenting, please delete this post & make it a comment.
gung - Reinstate Monica