Duas definições de valor-p: como provar sua equivalência?

11

Estou lendo o livro de Larry Wasserman, All of Statistics , e atualmente sobre p-values ​​(página 187). Deixe-me apresentar algumas definições (cito):

Definição 1 A função de potência de um teste com a região de rejeição é definida por O tamanho de um teste é definido como Diz-se que um teste tem nível \ alpha se seu tamanho for menor ou igual a \ alpha .R

β(θ)=Pθ(XR)
α=supθΘ0β(θ)
αα

Isso basicamente diz que α , o tamanho é a "maior" probabilidade de um erro do tipo I. O valor- p é então definido via (cito)

Definição 2 Suponha que, para cada α(0,1) , tenhamos um teste de tamanho α com a região de rejeição Rα . Em seguida,

p-value=inf{α:T(Xn)Rα}
que Xn=(X1,,Xn) .

Para mim, isso significa: dado um específico, há uma região de teste e rejeição modo que . Para o valor- , simplesmente pego o menor de todos esses .R α α = sup θ q 0 ( α ) P θ ( t ( X n ) R α ) p ααRαα=supθΘ0(α)Pθ(T(Xn)Rα)pα

Pergunta 1 Se esse fosse o caso, eu poderia escolher claramente para arbitrariamente pequeno . Qual é a minha interpretação errada da definição 2, ou seja, o que isso significa exatamente?ϵα=ϵϵ

Agora Wasserman continua e afirma que um teorema tem uma definição "equivalente" de valor- com a qual estou familiarizado (cito):p

Teorema Suponha que o tamanho teste seja da forma Então, onde é o valor observado de .rejeita  H 0α p -valor = sup θ q 0 P θ ( t ( X n ) T ( x n ) ) x N X N

reject H0T(Xn)cα
p-value=supθΘ0Pθ(T(Xn)T(xn))
xnXn

Então aqui está minha segunda pergunta:

Questão 2 Como posso realmente provar esse teorema? Talvez seja devido ao meu mal-entendido sobre a definição do valor- , mas não consigo descobrir.p

matemática
fonte
4
É positivamente estranho que Wasserman defina poder como " ", já que o símbolo é quase universalmente usado para a taxa de erro do tipo II (ou seja, poder = 1- para quase qualquer outro autor que discute poder). Estou achando difícil imaginar uma escolha de notação capaz de gerar uma confusão ainda maior, exceto deliberadamente tentando causá-la. β ββββ
Glen_b -Reinstala Monica
1
Concordo que isso é estranho, Glen - no entanto, Casella e Berger fazem a mesma coisa e seu texto é, na minha opinião, o padrão-ouro da teoria estatística.
Matt Brems

Respostas:

6

Temos alguns dados multivariados , extraídos de uma distribuição com algum parâmetro desconhecido . Observe que são resultados de amostra.D θ xxDθx

Queremos testar alguma hipótese sobre um parâmetro desconhecido , os valores de sob a hipótese nula estão no conjunto .θ θ 0θθθ0

No espaço do , podemos definir uma região de rejeição , e o poder dessa região é definido como . Portanto, a potência é calculada para um valor específico de como a probabilidade de que o resultado da amostra esteja na região de rejeição quando o valor de for . Obviamente, a potência depende da região e da escolhida .R R P R ˉ θ = P ˉXRR ˉ q qxRq ˉ q R ˉ qPθ¯R=Pθ¯(xR)θ¯θxR θθ¯Rθ¯

A definição 1 define o tamanho da regiãoR como o supremo de todos os valores de para em , portanto, apenas para valores de em . Obviamente, isto depende da região, de modo . ˉ θPθ¯Rθ¯ˉ q H 0 α R = s u p ˉ qq 0 P R ˉ qθ0θ¯H0αR=supθ¯θ0Pθ¯R

Como depende de , temos outro valor quando a região muda, e esta é a base para definir o valor p: altere a região, mas de maneira que o valor observado da amostra ainda pertença à região, por cada uma dessas regiões, calcular o como definido acima e tomar o ínfimo: . Portanto, o valor p é o menor tamanho de todas as regiões que contêm . R α R p v ( x ) = i n f R | x R α R xαRRαRpv(x)=infR|xRαRx

O teorema é então apenas uma 'tradução' dele, ou seja, o caso em que as regiões são definidas usando uma estatística e para um valor você define uma região como . Se você usar esse tipo de região no raciocínio acima, o teorema a seguir.T c R R = { x | T ( x ) c } RRTcRR={x|T(x)c}R

EDITAR por causa dos comentários:

@ user8: para o teorema; se você definir regiões de rejeição como no teorema, uma região de rejeição de tamanho é um conjunto que se parece com para alguns .R α = { X | T ( X ) c α } c ααRα={X|T(X)cα}cα

Para encontrar o valor p de um valor observado , ou seja, você deve encontrar a menor região , ou seja, o maior valor de tal que ainda contém , o último (a região contém ) é equivalente (devido à maneira como as regiões são definidas) a dizer que , então você deve encontrar o maior tal quep v ( x ) R cxpv(x)Rcx x c T ( x ) c { X | T ( X ) c & c T ( x ) }{X|T(X)c} xxcT(x)c{X|T(X)c&cT(x)}

Obviamente, o maior tal que deve ser e, em seguida, o conjunto supra se tornac T ( x ) c = T ( x ) { X | T ( X ) c = T ( x ) } = { XccT(x)c=T(x){X|T(X)c=T(x)}={X|T(X)T(x)}


fonte
Muito obrigado pela sua resposta. Para a pergunta sobre a validação do teorema: De alguma forma, falta um over ? αinfα
math
@ user8: eu adicionei um parágrafo no final da minha resposta, você vê o ponto com o mínimo agora?
7

Na definição 2, o valor- de uma estatística de teste é o maior limite inferior de todos modo que a hipótese é rejeitada para um teste de tamanho . Lembre-se de que quanto menor fizermos , menor será a tolerância ao erro do tipo I, portanto a região de rejeição também diminuirá. Então (de maneira muito informal), o valor- é o menor que podemos escolher que ainda nos permite rejeitar pelos dados que observamos. Não podemos escolher arbitrariamente um menor porque, em algum momento,α α α R α p α H 0 α R αpαααRαpαH0αRα será tão pequeno que excluirá (ou seja, não conterá) o evento que observamos.

Agora, à luz do exposto, convido você a reconsiderar o teorema.

heropup
fonte
Eu ainda estou um pouco confuso. Então, primeiro, na definição a estatística corrigida para todos ? Discordo da sua afirmação: "... em algum momento, será tão pequeno que excluirá (ou seja, não conterá) o evento que observamos". Perfeitamente bem, se é tão pequeno que não contém a amostra observada, não rejeitamos . Qual é o problema com isso? obrigado por sua ajuda / paciênciaT α R α R α H 02TαRαRαH0
math
Sim. A estatística de teste é uma função fixa pré-determinada da amostra, onde "fixa" nesse sentido significa que a forma da função não muda para nenhum . O valor adquirido pode (e deve) depender da amostra. Sua afirmação "nós não rejeitamos " revela por que sua discordância está incorreta: por definição , compreende o conjunto de todos os valores pelos quais a estatística de teste leva à rejeição do nulo . É por isso que é rotulado --para de ejeção "R". Vou postar uma atualização na minha resposta para explicar com mais detalhes. α H 0 R α RTαH0RαR
heropup
Muito obrigado pela sua resposta rápida e antecipadamente pela sua versão atualizada. O que eu quis dizer foi o seguinte: Rejeitamos se , onde é a amostra observada. Digamos que sou muito extremo e escolha muito pequeno, de modo que, para a amostra fornecida, que significa apenas que NÃO rejeitamos . Portanto, um pequeno não é, a priori, uma coisa ruim. Claramente, em um ponto é tão pequeno que é muito, muito, muito improvável observar uma amostra pertencente a . Mais uma vez, obrigado pela sua paciência / ajuda. realmente apreciado! T ( x n ) R α x n R α T ( x n ) R α H 0 R α R αH0T(xn)RαxnRαT(xn)RαH0RαRα
math
2
A definição dada de valor-p exige explicitamente que a estatística de teste da amostra esteja na região de rejeição . Você não é livre para alterar essa parte da definição de valor-p.
Glen_b -Reinstala Monica
@Glen_b Obrigado pelo comentário. De fato, meu comentário anterior viola a definição. Obrigado por apontar isso.
math