Por que os valores de p são distribuídos uniformemente sob a hipótese nula?

115

Recentemente, encontrei em um artigo de Klammer et al. uma declaração de que os valores-p devem ser distribuídos uniformemente. Acredito nos autores, mas não consigo entender por que é assim.

Klammer, AA, Park, CY, e Stafford Noble, W. (2009) Calibração de Estatística da Função SEQUEST XCorr . Journal of Proteome Research . 8 (4): 2106-2113.

golobor
fonte
24
Isso é imediato a partir da definição do valor-p como a transformação integral de probabilidade da estatística de teste usando a distribuição sob a hipótese nula. A conclusão requer que a distribuição seja contínua. Quando a distribuição é discreta (ou possui átomos), a distribuição dos valores-p também é discreta e, portanto, pode ser aproximadamente uniforme.
whuber
1
@whuber deu a resposta que era algo que eu suspeitava. Pedi à referência original apenas para ter certeza de que algo não estava perdido na tradução. Normalmente, não importa se o artigo é específico ou não, conteúdo estatístico mostra sempre através de :)
mpiktas
10
Somente quando é verdadeiroH0 ! ... e mais estritamente, somente quando contínuo (embora algo parecido seja verdadeiro no caso não contínuo; eu não sei a palavra certa para o caso mais geral; não é uniformidade). Em seguida, decorre da definição do valor-p.
Glen_b
2
Isso pode ser visto como uma variante do princípio fundamental da mecânica estatística (que os alunos geralmente têm dificuldade semelhante em aceitar) de que todos os micro-estados de um sistema físico têm igual probabilidade.
21413 DWin

Respostas:

83

Para esclarecer um pouco. O valor p é distribuído uniformemente quando a hipótese nula é verdadeira e todas as outras suposições são atendidas. A razão para isso é realmente a definição de alfa como a probabilidade de um erro do tipo I. Queremos que a probabilidade de rejeitar uma hipótese nula verdadeira seja alfa, rejeitamos quando o observado , a única maneira que isso acontece para qualquer valor de alfa é quando o valor-p vem de um uniforme distribuição. O objetivo de usar a distribuição correta (normal, t, f, chisq etc.) é transformar da estatística do teste em um valor-p uniforme. Se a hipótese nula for falsa, a distribuição do valor-p (espero) será mais ponderada em relação a 0.p-value<α

As funções Pvalue.norm.sime Pvalue.binom.simno pacote TeachingDemos para R simularão vários conjuntos de dados, computarão os valores-p e os plotarão para demonstrar essa idéia.

Veja também:

Murdoch, D. Tsai, Y e Adcock, J (2008). Valores-P são variáveis ​​aleatórias. The American Statistician , 62 , 242-245.

para mais alguns detalhes.

Editar:

Como as pessoas ainda estão lendo esta resposta e comentando, pensei em abordar o comentário do @ whuber.

É verdade que, ao usar uma hipótese nula composta como os valores-p somente serão distribuídos uniformemente quando as duas médias forem exatamente iguais e não serão uniformes se for qualquer valor menor que . Isso pode ser facilmente visto usando a função e configurando-a para fazer um teste unilateral e simular com a simulação e meios hipotéticos diferentes (mas na direção de tornar o nulo verdadeiro).μ 1 μ doisμ1μ2μ1μ2Pvalue.norm.sim

No que diz respeito à teoria estatística, isso não importa. Considere se eu afirmei que sou mais alto que todos os membros de sua família, uma maneira de testar essa afirmação seria comparar minha altura com a altura de cada membro de sua família, uma de cada vez. Outra opção seria encontrar o membro da sua família mais alto e comparar a altura deles com a minha. Se eu sou mais alto que essa pessoa, também sou mais alto que o resto e minha afirmação é verdadeira; se não sou mais alta que essa pessoa, minha afirmação é falsa. Testar um nulo composto pode ser visto como um processo semelhante, em vez de testar todas as combinações possíveis em que podemos testar apenas a parte da igualdade, porque se podemos rejeitar isso em favor deμ 1 = μ 2 μ 1 > μ 2 μ 1 < μ 2 μ 1 < μ 2 α μ 1 μ 2 αμ1μ2μ1=μ2μ1>μ2então sabemos que também podemos rejeitar todas as possibilidades de . Se observarmos a distribuição dos valores-p nos casos em que , a distribuição não será perfeitamente uniforme, mas terá mais valores próximos de 1 do que 0, o que significa que a probabilidade de um erro do tipo I será menor que o valor selecionado, tornando-o um teste conservador. O uniforme se torna a distribuição limitadora à medida que se aproxima deμ1<μ2μ1<μ2αμ1μ2(as pessoas mais atualizadas nos termos da teoria das estatísticas provavelmente poderiam afirmar isso melhor em termos de supremo distributivo ou algo assim). Portanto, construindo nosso teste assumindo a parte igual do nulo, mesmo quando o nulo é composto, projetamos nosso teste para ter uma probabilidade de um erro do tipo I que é no máximo para todas as condições em que o nulo é verdadeiro.α

Greg Snow
fonte
Desculpe pelo erro de digitação que introduzi (leia \leqem TeX)!
chl
1
O artigo "Valores-P são variáveis ​​aleatórias" é realmente interessante. Existe algum livro introdutório que atenda aos princípios estabelecidos no artigo?
Alessandro Jacopson 30/06
8
Apesar do comentário que postei para a pergunta, percebi desde então que a conclusão não é verdadeira, exceto em casos especiais. O problema ocorre com hipóteses compostas, como . "A hipótese nula é verdadeira" agora abrange muitas possibilidades, como o caso . Nesse caso, os valores-p não serão distribuídos uniformemente. Suspeito que alguém possa fabricar situações (um tanto artificiais) nas quais, independentemente do elemento da hipótese nula, a distribuição dos valores-p nunca estaria nem de longe uniforme. μ 1 = μ 2 - 10 6μ1μ2μ1=μ2106
whuber
1
@ Greg Neve: Eu acho que a distribuição dos valores de p nem sempre é uniforme, é uniforme quando são calculados a partir de uma distribuição contínua, mas não quando eles são calculados a partir de uma distribuição discreta
1
Expandi a resposta acima para abordar o comentário de @whuber.
Greg Neve
26

Sob a hipótese nula, sua estatística de teste tem a distribuição (por exemplo, normal padrão). Mostramos que o valor p tem uma distribuição de probabilidade em outras palavras, é distribuído uniformemente. Isso ocorre enquanto é invertível, uma condição necessária para que não seja uma variável aleatória discreta.TF(t)P=F(T)P F ( ) T

Pr(P<p)=Pr(F1(P)<F1(p))=Pr(T<t)p;
PF()T

Este resultado é geral: a distribuição de um CDF invertível de uma variável aleatória é uniforme em .[0,1]

Charlie
fonte
8
convém reformular seu último comentário, o que é um pouco confuso. CDFs contínuos não têm necessariamente um inverso (apropriado). (Você pode pensar em um contraexemplo?) Portanto, sua prova exige condições adicionais. A maneira padrão de contornar isso é definir o pseudo-inverso . O argumento também se torna mais sutil. F(y)=inf{x:F(x)y}
cardeal
1
Sobre o trabalho com inversos generalizados, consulte link.springer.com/article/10.1007%2Fs00186-013-0436-7 (em particular, F (T) só é uniforme se F for contínuo - não importa se F é invertível ou não). Em relação à sua definição de valor-p: eu não acho que seja sempre 'F (T)'. É a probabilidade (abaixo do nulo) de assumir um valor mais extremo que o observado, de modo que também poderia ser a função de sobrevivência (apenas para ser preciso aqui).
Marius Hofert
Não é o CDF? F(t)
Zyxue
@zyxue Sim, às vezes o cdf é chamado de "distribuição".
Mikario 22/09
6

Seja a variável aleatória com a função de distribuição cumulativa para todos os . Assumindo que é invertível, podemos derivar a distribuição do valor p aleatório seguinte maneira:TF(t)Pr(T<t)tFP=F(T)

Pr(P<p)=Pr(F(T)<p)=Pr(T<F1(p))=F(F1(p))=p,

a partir do qual podemos concluir que a distribuição de é uniforme em .P[0,1]

Essa resposta é semelhante à de Charlie, mas evita ter que definir .t=F1(p)

jII
fonte
Como você definiu F, P = F (T) = Pr (T <T) = 0?
TrynnaDoStat 27/06
Não exatamente, a "substituição sintática" de é um tanto enganadora. Formalmente falando, é a variável aleatória definida porF(T)=Pr(T<T)F(T)(F(T))(ω)=F(T(ω)):=Pr(T<T(ω))
jII
4

Simulação simples da distribuição dos valores p em caso de regressão linear entre duas variáveis ​​independentes:

# estimated model is: y = a0 + a1*x + e

obs<-100                # obs in each single regression
Nloops<-1000            # number of experiments
output<-numeric(Nloops) # vector holding p-values of estimated a1 parameter from Nloops experiments

for(i in seq_along(output)){

x<-rnorm(obs) 
y<-rnorm(obs)

# x and y are independent, so null hypothesis is true
output[i] <-(summary(lm(y~x)) $ coefficients)[2,4] # we grab p-value of a1

if(i%%100==0){cat(i,"from",Nloops,date(),"\n")} # after each 100 iteration info is printed

}

plot(hist(output), main="Histogram of a1 p-values")
ks.test(output,"punif") # Null hypothesis is that output distr. is uniform
Qbik
fonte
7
Você poderia explicar como isso responde à pergunta? Embora sua saída ilustre um caso especial da asserção, nenhuma quantidade de código seria capaz de abordar a questão do porquê ? Isso requer explicações adicionais.
whuber
-1

Eu não acho que a maioria dessas respostas realmente responda à pergunta em geral. Eles são restritos ao caso em que existe uma hipótese nula simples e quando a estatística do teste possui um CDF invertível (como em uma variável aleatória contínua que possui um CDF estritamente crescente). Esses casos são os casos com os quais a maioria das pessoas se preocupa com os testes z e t, embora, para testar uma média binomial (por exemplo), não se tenha esse CDF. O que é fornecido acima parece correto aos meus olhos para esses casos restritos.

Se hipóteses nulas são compostas, as coisas são um pouco mais complicadas. A prova mais geral desse fato que eu já vi no caso composto usando algumas suposições sobre regiões de rejeição é fornecida nas "Testando Hipóteses Estatísticas" de Lehmann e Romano, páginas 63-64. Vou tentar reproduzir o argumento abaixo ...

Nós testamos a hipótese nula contra uma hipótese alternativa com base em uma estatística de teste, que vamos denotar como a variável aleatória . Supõe-se que a estatística de teste venha de alguma classe paramétrica, ou seja, , em que é um elemento da família de distribuições de probabilidade e é um espaço de parâmetro. A hipótese nula e a hipótese alternativa formam uma partição de em H0H1XXPθPθP{PθθΘ}ΘH0:θΘ0H1:θΘ1Θ

Θ=Θ0Θ1
onde
Θ0Θ1=.

O resultado do teste pode ser indicado como onde, para qualquer conjunto , definimos Aqui é o nosso nível de significância e indica a região de rejeição do teste para o nível de significância .

ϕα(X)=1Rα(X)
S
1S(X)={1,XS,0,XS.
αRαα

Suponha que as regiões de rejeição atendam ao se . Nesse caso de regiões de rejeição aninhadas, é útil determinar não apenas se a hipótese nula é ou não rejeitada em um determinado nível de significância , mas também determinar o menor nível de significância para o qual a hipótese nula seria rejeitada. Esse nível é conhecido como valor-p , Esse número nos dá uma idéia de quão forte os dados (conforme retratados pela estatística do teste ) contradizem a hipótese nula .

RαRα
α<αα
p^=p^(X)inf{αXRα},
XH0

Suponha que para alguns e . Suponha adicionalmente que as regiões de rejeição obedeçam à propriedade de aninhamento mencionada acima. Em seguida, o seguinte vale:XPθθΘH0:θΘ0Rα

  1. Se para todos os , então para , supθΘ0Pθ(XRα)α0<α<1θΘ0

    Pθ(p^u)ufor all0u1.

  2. Se para , temos para todos os , então para , temos θΘ0Pθ(XRα)=α0<α<1θΘ0

    Pθ(p^u)=ufor all0u1.

Observe que essa primeira propriedade apenas nos diz que a taxa de falso positivo é controlada em rejeitando quando o valor de p é menor que , e a segunda propriedade nos diz (dada uma suposição adicional) que os valores de p são distribuídos uniformemente sob o valor nulo hipótese.uu

A prova é a seguinte:

  1. Deixe e assuma para todos os . Então, por definição de , temos para todos os . Pela monotonicidade e pelo pressuposto, segue-se que para todos os . Deixando , segue-se que .θΘ0supθΘ0Pθ(XRα)α0<α<1p^{p^u}{XRv}u<vPθ(p^u)Pθ(XRv)vu<vvuPθ(p^u)u

  2. Deixe e assuma que para todos os . Então e, por monotonicidade, segue-se que . Considerando (1), segue-se que . θΘ0Pθ(XRα)=α0<α<1{XRu}{p^(X)u}u=Pθ(XRu)Pθ(p^u)Pθ(p^(X)u)=u

Observe que a suposição em (2) não se aplica quando uma estatística de teste é discreta, mesmo que a hipótese nula seja simples e não composta. Tomemos, por exemplo, com e . Ou seja, jogue uma moeda dez vezes e teste se é justo versus inclinado em direção às cabeças (codificado como 1). A probabilidade de ver 10 caras em 10 lançamentos justos de moedas é (1/2) ^ 10 = 1/1024. A probabilidade de ver 9 ou 10 caras em 10 lançamentos justos de moedas é 11/1024. Para qualquer estritamente entre 1/1024 e 11/1024, você rejeitaria o nulo se , mas não temos esse para esses valores de quandoXBinom(10,θ)H0:θ=.5H1:θ>0.5αX=10Pr(XRα)=ααθ=0.5 . Em vez disso, para esse . Pr(XRα)=1/1024α

Adão
fonte
Deve esclarecer que a generalidade fornecida em Lehmann e Romano é para regiões de rejeição geral. Ainda assim, você só possui valores p "válidos" para valores nulos compostos e estatísticas de teste não contínuas.
Adam
-12

Se os valores de p forem distribuídos uniformemente sob o H0, isso significa que é mais provável que o valor de p seja igual a 0,05 do que o valor de p igual a 0,80, mas isso não é verdade, pois é menos provável que ocorra um valor de p valor de .05 a um valor de p de .80, porque essa é precisamente a definição da distribuição normal da qual o valor de p é obtido. Haverá mais amostras caindo dentro da faixa de normalidade do que fora dela, por definição. Portanto, é mais provável encontrar valores p maiores do que os menores.

Gahariet
fonte
3
-1. Isso está completamente errado. Eu me pergunto quem votou nisso. Os valores P no ponto H0 são distribuídos uniformemente.
Ameba
1
-1. Isso nem faz sentido o suficiente para ser chamado de errado: "faixa de normalidade" não tem sentido e os valores p inerentemente não têm nada a ver com distribuições normais em primeiro lugar.
whuber