Se a distribuição da estatística de teste é bimodal, o valor de p significa alguma coisa?

12

O valor P é definido como a probabilidade de obter uma estatística de teste pelo menos tão extrema quanto a observada, assumindo que a hipótese nula é verdadeira. Em outras palavras,

Mas e se a estatística-teste for bimodal na distribuição? valor-p significa alguma coisa neste contexto? Por exemplo, vou simular alguns dados bimodais no R:

P(Xt|H0)
set.seed(0)
# Generate bi-modal distribution
bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5)) 
hist(bimodal, breaks=100)

insira a descrição da imagem aqui

E vamos supor que observamos um valor estatístico de teste de 60. E aqui sabemos pela figura que esse valor é muito improvável . Então, idealmente, eu gostaria de um procedimento estatístico que eu use (digamos, valor-p) para revelar isso. Mas se calcularmos o valor p conforme definido, obteremos um valor muito alto

observed <- 60

# Get P-value
sum(bimodal[bimodal >= 60])/sum(bimodal)
[1] 0.7991993

Se eu não conhecesse a distribuição, concluiria que o que observei é simplesmente por acaso. Mas sabemos que isso não é verdade.

Acho que a pergunta que tenho é: Por que, ao calcular o valor p, calculamos a probabilidade dos valores "pelo menos tão extremos quanto" os observados? E se eu encontrar uma situação como a que simulei acima, qual é a solução alternativa?

Alby
fonte
7
Bem-vindo ao maravilhoso mundo dos testes de significância de hipótese nula! Sério: honestamente, não consigo pensar em uma estatística de teste que tenha uma distribuição bimodal sob a hipótese nula (que é aquela com a qual nos preocupamos no NHST). Então, +1 para uma pergunta interessante, mas duvido de sua relevância prática ... a menos que você tenha um exemplo específico em mente?
Stephan Kolassa
1
Eu concordo com @StephanKolassa; Certamente existem distribuições de dados bimodais, mas que tipo de estatística de teste é?
Peter Flom - Restabelece Monica
7
Eu discordaria da caracterização dos valores de p sugeridos pela primeira fórmula. O sentido correto de "pelo menos tão extremo" na teoria de Neyman-Pearson é em termos de probabilidade relativa e não em termos da ordenação usual dos reais (como indicado na fórmula). Os dois são equivalentes em muitas situações de teste padrão, mas diferem acentuadamente quando a distribuição da amostra é bimodal. Essa distinção, portanto, resolverá a questão satisfatoriamente, eu acho.
whuber
@whuber Você pode elaborar um pouco sobre isso, talvez com um exemplo simples?
precisa
2
Gθ(θ,θ)θ1Fθ(x)Gθ(x)Gθ(-x)x[-1,1]F1F2±1/2XFθH0 0:XF1 HUMA:XF2±11/2-1/2θ=2é mais forte lá.
whuber

Respostas:

5

O que torna uma estatística de teste "extrema" depende da sua alternativa, que impõe uma ordem (ou pelo menos uma ordem parcial) no espaço da amostra - você procura rejeitar os casos mais consistentes (no sentido de ser medido por uma estatística de teste) com a alternativa.

Quando você realmente não tem uma alternativa para fornecer algo com o qual seja mais consistente, fica essencialmente com a probabilidade de dar a ordem, mais frequentemente vista no teste exato de Fisher. Lá, a probabilidade dos resultados (as tabelas 2x2) sob o nulo ordena a estatística do teste (de modo que "extremo" seja "baixa probabilidade").

Se você estivesse em uma situação em que a extrema esquerda (ou extrema direita ou ambas) de sua distribuição nula bimodal estivesse associada ao tipo de alternativa em que estava interessado, não procuraria rejeitar uma estatística de teste de 60. Mas se você está em uma situação em que não tem uma alternativa como essa, então 60 é indiferente - ela tem uma baixa probabilidade; um valor de 60 é inconsistente com seu modelo e levaria você a rejeitar.

[Isso seria visto por alguns como uma diferença central entre os testes de hipótese de Fisher e Neyman-Pearson. Ao introduzir uma alternativa explícita e uma proporção de probabilidades, uma baixa probabilidade abaixo do nulo não necessariamente fará com que você rejeite em uma estrutura de Neyman-Pearson (desde que tenha um desempenho relativamente bom em comparação com a alternativa), enquanto para Fisher, você realmente não tem uma alternativa, e a probabilidade sob o nulo é a coisa pela qual você está interessado.]

Não estou sugerindo que uma ou outra abordagem esteja certa ou errada aqui - você segue em frente e decide por si mesmo que tipo de alternativas você procura poder, seja uma específica ou apenas algo que seja improvável o suficiente sob o nulo. Depois que você sabe o que deseja, o resto (incluindo o que significa 'pelo menos tão extremo') praticamente segue a partir disso.

Glen_b -Reinstate Monica
fonte