Rejeitar a hipótese usando valor-p é equivalente à hipótese que não pertence ao intervalo de confiança?

29

Embora derivasse formalmente o intervalo de confiança de uma estimativa, acabei com uma fórmula que se assemelha muito à maneira como o valor de é calculado.p

Assim, a pergunta: eles são formalmente equivalentes? Ou seja, está rejeitando uma hipótese com um valor crítico equivalente a não pertence ao intervalo de confiança com valor crítico ?H0=0α0α

Jorge Leitao
fonte
2
@ coppens: sim, se dois testes forem usados, com estatísticas diferentes, você terá dois intervalos de confiança diferentes. Mas acho que o OP descobriu um fato básico: o intervalo de confiança e o valor p são obtidos a partir da distribuição da mesma estatística, de modo que ambos podem ser usados ​​para decidir rejeitar a hipótese nula ou não.
StijnDeVuyst 28/08/2015
1
@StijnDeVuyst: o intervalo Clopper / Pearon para uma proporção e o intervalo Sterne para uma proporção são derivados da distribuição binomial com o mesmo tamanho (op é desconhecido porque eles encontram um intervalo de confiança para p). A diferença entre Clopper / Pearson e Sterne é devida à assimetria da densidade binomial. O intervalo Sterne tenta minimizar a largura do intervalo e Clopper_pearson tenta manter a simetria (mas devido à assimetria do binômio, isso só pode ser encontrado aproximadamente).
6
Não em geral, não. Considere os casos em que a largura do intervalo é uma função do valor estimado do parâmetro, enquanto que para o teste a largura do intervalo é uma função da hipótese. Um exemplo óbvio seria testar um binômio p. Vamos usar o aprox aprox. por simplicidade (embora a forma de argumento não dependa disso). Considere n = 10 e um nulo de p = 0,5. Imagine observar duas cabeças; o nulo não é rejeitado (porque "2" está dentro de um intervalo de 95% cerca de 0,5), mas o IC para p não inclui 0,5 (porque o IC é mais estreito que a largura do intervalo sob o nulo.
Glen_b -Reinstate Monica
4
Ou se você precisar que ele seja grande o suficiente para que o aproximado normal seja bom, tente 469 cabeças em 1000 lançamentos, para H0 p = 0,5; novamente o IC 95% para p não inclui 0,5, mas o teste de 5% não rejeita, porque a largura do intervalo correspondente em H0 é maior que na alternativa (que é a partir da qual você faz o IC).
Glen_b -Reinstala Monica 28/08
4
@Glen_b: Parece que esta pergunta mais recente stats.stackexchange.com/questions/173005 fornece um exemplo exatamente da situação que você estava descrevendo aqui.
Ameba diz Reinstate Monica

Respostas:

32

Sim e não.

Primeiro o "sim"

O que você observou é que, quando um teste e um intervalo de confiança são baseados na mesma estatística, há uma equivalência entre eles: podemos interpretar o valor- como o menor valor de para o qual o valor nulo do parâmetro seria incluído no intervalo de confiança .α 1 - αpα1-α

Seja um parâmetro desconhecido no espaço de parâmetros e deixe a amostra é uma realização da variável aleatória . Para simplificar, defina um intervalo de confiança como um intervalo aleatório, de modo que sua probabilidade de cobertura (Você também pode considerar intervalos mais gerais, nos quais a probabilidade de cobertura é limitada por ou aproximadamente igual a . O raciocínio é análogo.)Θ R x = ( x 1 , , x n ) X nR n X = ( X 1 , , X n ) I α ( X ) P θ ( θ I α ( X ) ) = 1 - αθΘRx=(x1,...,xn)XnRnX=(X1,...,Xn)Euα(X) 1 - α

Pθ(θEuα(X))=1-αpara todos α(0 0,1).
1-α

Considere um teste bilateral da hipótese ponto nulo contra a alternativa . Vamos denotar o valor p do teste. Para qualquer , é rejeitado no nível if . A região de rejeição level é o conjunto de que leva à rejeição de : H 1 ( θ 0 ) : θ θ 0 λ ( θ 0 , x ) α ( 0 , 1 ) H 0 ( θ 0 ) α λ ( θ 0 , x ) α α x H 0 ( θ 0 ) RH0 0(θ0 0):θ=θ0 0H1(θ0 0):θθ0 0λ(θ0 0,x)α(0 0,1)H0 0(θ0 0)αλ(θ0 0,x)αα xH0 0(θ0 0)

Rα(θ0 0)={xRn:λ(θ0 0,x)α}.

Agora, considere uma família de testes frente e verso com valores-p , para . Para essa família, podemos definir uma região de rejeição invertidaθ q Q α ( x ) = { θ q : λ ( θ , x ) α } .λ(θ,x)θΘ

Qα(x)={θΘ:λ(θ,x)α}.

Para qualquer fixo , é rejeitado se , o que acontece se e somente se , isto é, Se o teste for baseado em uma estatística de teste com uma distribuição nula absolutamente contínua absolutamente especificada, em . Então Como esta equação vale para qualquerH 0 ( θ 0 ) xR α ( θ 0 ) θ 0Q α ( x ) xR α ( θ 0 ) θ 0Q α ( x ) . λ ( θ 0 , X ) U ( 0 , 1 ) H 0 ( θ 0θ0 0H0 0(θ0 0)xRα(θ0 0)θ0 0Qα(x)

xRα(θ0 0)θ0 0Qα(x).
λ(θ0 0,X)você(0 0,1)P θ 0 ( XR α ( θ 0 ) ) = P θ 0 ( λ ( θ 0 , X ) α ) = α . θ 0Θ P θ 0 ( XR α ( θ 0 ) ) = P θ 0 ( θ 0Q α ( XH0 0(θ0 0)
Pθ0 0(XRα(θ0 0))=Pθ0 0(λ(θ0 0,X)α)=α.
θ0 0Θe como a equação acima implica que segue que o conjunto aleatório sempre cobre o parâmetro verdadeiro com probabilidade . Consequentemente, deixando denotar o complemento de , para todos temos significando que o complemento da região de rejeição invertida é um intervalo de confiança de para .
Pθ0 0(XRα(θ0 0))=Pθ0 0(θ0 0Qα(X)),
Qα(x)θ0 0αQαC(x)Qα(x)θ0 0Θ
Pθ0 0(θ0 0QαC(X))=1-α,
1-αθ

Uma ilustração é fornecida abaixo, mostrando regiões de rejeição e intervalos de confiança correspondentes ao teste para uma média normal, para diferentes médias nulas e diferentes amostras , com . será rejeitado se estiver na região cinza claro sombreada. É mostrada em cinza escuro a região de rejeição e o intervalo de confiança . zθx¯σ=1H0 0(θ)(x¯,θ)R0,05(-0,9)=(-,-1,52)(-0,281,)Eu0,05(1/2)=Q0,05C(1/2)=(-0,120,1.120)insira a descrição da imagem aqui

(Muito disso é retirado da minha tese de doutorado .)

Agora para o "não"

Acima, descrevi a maneira padrão de construir intervalos de confiança. Nesta abordagem, usamos algumas estatísticas relacionadas ao parâmetro desconhecido para construir o intervalo. Há também intervalos baseados em algoritmos de minimização, que procuram minimizar o comprimento da condição de intervalo no valor de . Geralmente, esses intervalos não correspondem a um teste.θX

Esse fenômeno tem a ver com problemas relacionados a esses intervalos não serem aninhados, o que significa que o intervalo de 94% pode ser menor que o intervalo de 95%. Para mais informações, consulte a Seção 2.5 deste meu recente artigo (a ser exibido em Bernoulli).

E um segundo "não"

Em alguns problemas, o intervalo de confiança padrão não se baseia na mesma estatística que o teste padrão (conforme discutido por Michael Fay neste artigo ). Nesses casos, os intervalos de confiança e os testes podem não fornecer os mesmos resultados. Por exemplo, pode ser rejeitado pelo teste, mesmo que 0 esteja incluído no intervalo de confiança. Isso não contradiz o "sim" acima, pois diferentes estatísticas são usadas.θ0 0=0 0

E às vezes "sim" não é uma coisa boa

Como apontado por f coppens em um comentário, algumas vezes intervalos e testes têm objetivos um tanto conflitantes. Queremos intervalos curtos e testes com alta potência, mas o intervalo mais curto nem sempre corresponde ao teste com maior potência. Para alguns exemplos disso, consulte este artigo (distribuição normal multivariada), ou esta (distribuição exponencial), ou a Seção 4 da minha tese .

Os bayesianos também podem dizer sim e não

Alguns anos atrás, postei aqui uma pergunta sobre se existe uma equivalência de intervalo de teste também nas estatísticas bayesianas. A resposta curta é que, usando o teste de hipóteses bayesiano padrão, a resposta é "não". Ao reformular um pouco o problema de teste, a resposta pode ser "sim". (Minhas tentativas de responder minha própria pergunta acabaram se transformando em um artigo !)

MånsT
fonte
2
Resposta agradável (+1) e (você faz isso parcialmente) pode ser bom apontar para o fato de que, às vezes, intervalos de confiança e testes de hipóteses têm objetivos (potencialmente) conflitantes: tenta-se encontrar um intervalo de confiança 'o menor possível' enquanto para o teste de hipóteses, tenta-se encontrar uma região crítica "o mais poderosa possível".
@fcoppens: Obrigado pela sugestão! Atualizei minha resposta com algumas linhas sobre isso.
288
Boa tese! Você trabalhou no intervalo Sterne também?
@fcoppens: Sim, eu fiz alguns trabalhos o intervalo Sterne, principalmente no presente trabalho
MånsT
7
@amoeba: Na verdade, acho que o "não" dele é o meu segundo "não". Até onde eu sei, ele baseia o intervalo de confiança na estatística e no teste na estatística . Observe a diferença no denominador. Você pode construir testes e intervalos usando uma estatística e, desde que você use a mesma estatística para ambas, não haverá discrepância. T2=(p-p)/T1=(p^-p)/p^(1-p^)/nT2=(p^-p)/p(1-p)/n
precisa saber é o seguinte
2

Ao analisar um único parâmetro, é possível que um teste sobre o valor do parâmetro e o intervalo de confiança "incompatível", dependendo de como eles são construídos. Em particular, um teste de hipótese é um teste de nível , se rejeitar a hipótese nula uma proporção do tempo em que a hipótese nula for verdadeira. Por esse motivo, pode-se, por exemplo, usar estimativas de parâmetros do modelo (por exemplo, a variação) que são válidas apenas sob a hipótese nula. Se alguém tentasse construir um IC invertendo esse teste, a cobertura pode não estar totalmente correta sob a hipótese alternativa. Por esse motivo, normalmente se constrói um intervalo de confiança de maneira diferente, de modo que a cobertura também esteja logo abaixo da alternativa, o que pode levar a uma incompatibilidade (geralmente muito pequena).ααα

Björn
fonte