Embora derivasse formalmente o intervalo de confiança de uma estimativa, acabei com uma fórmula que se assemelha muito à maneira como o valor de é calculado.
Assim, a pergunta: eles são formalmente equivalentes? Ou seja, está rejeitando uma hipótese com um valor crítico equivalente a não pertence ao intervalo de confiança com valor crítico ?
hypothesis-testing
confidence-interval
p-value
Jorge Leitao
fonte
fonte
Respostas:
Sim e não.
Primeiro o "sim"
O que você observou é que, quando um teste e um intervalo de confiança são baseados na mesma estatística, há uma equivalência entre eles: podemos interpretar o valor- como o menor valor de para o qual o valor nulo do parâmetro seria incluído no intervalo de confiança .α 1 - αp α 1 - α
Seja um parâmetro desconhecido no espaço de parâmetros e deixe a amostra é uma realização da variável aleatória . Para simplificar, defina um intervalo de confiança como um intervalo aleatório, de modo que sua probabilidade de cobertura (Você também pode considerar intervalos mais gerais, nos quais a probabilidade de cobertura é limitada por ou aproximadamente igual a . O raciocínio é análogo.)Θ ⊆ R x = ( x 1 , … , x n ) ∈ X n ⊆ R n X = ( X 1 , … , X n ) I α ( X ) P θ ( θ ∈ I α ( X ) ) = 1 - αθ Q ⊆ R x =( x1, … , Xn) ∈ Xn⊆ Rn X =( X1, … , Xn) Euα( X )
1 - α
Considere um teste bilateral da hipótese ponto nulo contra a alternativa . Vamos denotar o valor p do teste. Para qualquer , é rejeitado no nível if . A região de rejeição level é o conjunto de que leva à rejeição de : H 1 ( θ 0 ) : θ ≠ θ 0 λ ( θ 0 , x ) α ∈ ( 0 , 1 ) H 0 ( θ 0 ) α λ ( θ 0 , x ) ≤ α α x H 0 ( θ 0 ) RH0 0( θ0 0) : θ = θ0 0 H1( θ0 0) : θ ≠ θ0 0 λ ( θ0 0, X ) α ∈ ( 0 , 1 ) H0 0( θ0 0) α λ ( θ0 0, x ) ≤ α α x H0 0( θ0 0)
Agora, considere uma família de testes frente e verso com valores-p , para . Para essa família, podemos definir uma região de rejeição invertidaθ ∈ q Q α ( x ) = { θ ∈ q : λ ( θ , x ) ≤ α } .λ ( θ , x ) θ ∈ Θ
Para qualquer fixo , é rejeitado se , o que acontece se e somente se , isto é, Se o teste for baseado em uma estatística de teste com uma distribuição nula absolutamente contínua absolutamente especificada, em . Então Como esta equação vale para qualquerH 0 ( θ 0 ) x ∈ R α ( θ 0 ) θ 0 ∈ Q α ( x ) x ∈ R α ( θ 0 ) ⇔ θ 0 ∈ Q α ( x ) . λ ( θ 0 , X ) ∼ U ( 0 , 1 ) H 0 ( θ 0θ0 0 H0 0( θ0 0) x ∈ Rα( θ0 0) θ0 0∈ Qα( X )
Uma ilustração é fornecida abaixo, mostrando regiões de rejeição e intervalos de confiança correspondentes ao teste para uma média normal, para diferentes médias nulas e diferentes amostras , com . será rejeitado se estiver na região cinza claro sombreada. É mostrada em cinza escuro a região de rejeição e o intervalo de confiança .z θ x¯ σ= 1 H0 0( θ ) ( x¯, θ ) R0,05( - 0,9 ) = ( - ∞ , - 1,52 ) ∪ ( - 0,281 , ∞ ) Eu0,05( 1 / 2 ) = QC0,05( 1 / 2 ) = ( - 0,120 , 1,120 )
(Muito disso é retirado da minha tese de doutorado .)
Agora para o "não"
Acima, descrevi a maneira padrão de construir intervalos de confiança. Nesta abordagem, usamos algumas estatísticas relacionadas ao parâmetro desconhecido para construir o intervalo. Há também intervalos baseados em algoritmos de minimização, que procuram minimizar o comprimento da condição de intervalo no valor de . Geralmente, esses intervalos não correspondem a um teste.θ X
Esse fenômeno tem a ver com problemas relacionados a esses intervalos não serem aninhados, o que significa que o intervalo de 94% pode ser menor que o intervalo de 95%. Para mais informações, consulte a Seção 2.5 deste meu recente artigo (a ser exibido em Bernoulli).
E um segundo "não"
Em alguns problemas, o intervalo de confiança padrão não se baseia na mesma estatística que o teste padrão (conforme discutido por Michael Fay neste artigo ). Nesses casos, os intervalos de confiança e os testes podem não fornecer os mesmos resultados. Por exemplo, pode ser rejeitado pelo teste, mesmo que 0 esteja incluído no intervalo de confiança. Isso não contradiz o "sim" acima, pois diferentes estatísticas são usadas.θ0 0= 0
E às vezes "sim" não é uma coisa boa
Como apontado por f coppens em um comentário, algumas vezes intervalos e testes têm objetivos um tanto conflitantes. Queremos intervalos curtos e testes com alta potência, mas o intervalo mais curto nem sempre corresponde ao teste com maior potência. Para alguns exemplos disso, consulte este artigo (distribuição normal multivariada), ou esta (distribuição exponencial), ou a Seção 4 da minha tese .
Os bayesianos também podem dizer sim e não
Alguns anos atrás, postei aqui uma pergunta sobre se existe uma equivalência de intervalo de teste também nas estatísticas bayesianas. A resposta curta é que, usando o teste de hipóteses bayesiano padrão, a resposta é "não". Ao reformular um pouco o problema de teste, a resposta pode ser "sim". (Minhas tentativas de responder minha própria pergunta acabaram se transformando em um artigo !)
fonte
Ao analisar um único parâmetro, é possível que um teste sobre o valor do parâmetro e o intervalo de confiança "incompatível", dependendo de como eles são construídos. Em particular, um teste de hipótese é um teste de nível , se rejeitar a hipótese nula uma proporção do tempo em que a hipótese nula for verdadeira. Por esse motivo, pode-se, por exemplo, usar estimativas de parâmetros do modelo (por exemplo, a variação) que são válidas apenas sob a hipótese nula. Se alguém tentasse construir um IC invertendo esse teste, a cobertura pode não estar totalmente correta sob a hipótese alternativa. Por esse motivo, normalmente se constrói um intervalo de confiança de maneira diferente, de modo que a cobertura também esteja logo abaixo da alternativa, o que pode levar a uma incompatibilidade (geralmente muito pequena).≤ αα ≤ α
fonte