Estou lendo o livro de Larry Wasserman, All of Statistics , e atualmente sobre p-values (página 187). Deixe-me apresentar algumas definições (cito):
Definição 1 A função de potência de um teste com a região de rejeição é definida por O tamanho de um teste é definido como Diz-se que um teste tem nível \ alpha se seu tamanho for menor ou igual a \ alpha .
Isso basicamente diz que , o tamanho é a "maior" probabilidade de um erro do tipo I. O valor- é então definido via (cito)
Definição 2 Suponha que, para cada , tenhamos um teste de tamanho com a região de rejeição . Em seguida,
que .
Para mim, isso significa: dado um específico, há uma região de teste e rejeição modo que . Para o valor- , simplesmente pego o menor de todos esses .R α α = sup θ ∈ q 0 ( α ) P θ ( t ( X n ) ∈ R α ) p α
Pergunta 1 Se esse fosse o caso, eu poderia escolher claramente para arbitrariamente pequeno . Qual é a minha interpretação errada da definição 2, ou seja, o que isso significa exatamente?ϵ
Agora Wasserman continua e afirma que um teorema tem uma definição "equivalente" de valor- com a qual estou familiarizado (cito):
Teorema Suponha que o tamanho teste seja da forma Então, onde é o valor observado de .rejeita H 0 p -valor = sup θ ∈ q 0 P θ ( t ( X n ) ≥ T ( x n ) ) x N X N
Então aqui está minha segunda pergunta:
Questão 2 Como posso realmente provar esse teorema? Talvez seja devido ao meu mal-entendido sobre a definição do valor- , mas não consigo descobrir.
fonte
Respostas:
Temos alguns dados multivariados , extraídos de uma distribuição com algum parâmetro desconhecido . Observe que são resultados de amostra.D θ xx D θ x
Queremos testar alguma hipótese sobre um parâmetro desconhecido , os valores de sob a hipótese nula estão no conjunto .θ θ 0θ θ θ0 0
No espaço do , podemos definir uma região de rejeição , e o poder dessa região é definido como . Portanto, a potência é calculada para um valor específico de como a probabilidade de que o resultado da amostra esteja na região de rejeição quando o valor de for . Obviamente, a potência depende da região e da escolhida .R R P R ˉ θ = P ˉX R R ˉ q qxRq ˉ q R ˉ qPRθ¯= Pθ¯( x ∈ R ) θ¯ θ x R θ θ¯ R θ¯
A definição 1 define o tamanho da regiãoR como o supremo de todos os valores de para em , portanto, apenas para valores de em . Obviamente, isto depende da região, de modo . ˉ θPRθ¯ θ¯ ˉ q H 0 α R = s u p ˉ q ∈ q 0 P R ˉ qθ0 0 θ¯ H0 0 αR= s u pθ¯∈ θ0 0PRθ¯
Como depende de , temos outro valor quando a região muda, e esta é a base para definir o valor p: altere a região, mas de maneira que o valor observado da amostra ainda pertença à região, por cada uma dessas regiões, calcular o como definido acima e tomar o ínfimo: . Portanto, o valor p é o menor tamanho de todas as regiões que contêm . R α R p v ( x ) = i n f R | x ∈ R α R xαR R αR p v ( x ) = i n fR |x ∈ RαR x
O teorema é então apenas uma 'tradução' dele, ou seja, o caso em que as regiões são definidas usando uma estatística e para um valor você define uma região como . Se você usar esse tipo de região no raciocínio acima, o teorema a seguir.T c R R = { x | T ( x ) ≥ c } RR T c R R = { x | T( x ) ≥ c } R
EDITAR por causa dos comentários:
@ user8: para o teorema; se você definir regiões de rejeição como no teorema, uma região de rejeição de tamanho é um conjunto que se parece com para alguns .R α = { X | T ( X ) ≥ c α } c αα Rα= { X| T( X) ≥ cα} cα
Para encontrar o valor p de um valor observado , ou seja, você deve encontrar a menor região , ou seja, o maior valor de tal que ainda contém , o último (a região contém ) é equivalente (devido à maneira como as regiões são definidas) a dizer que , então você deve encontrar o maior tal quep v ( x ) R cx p v ( x ) R c x x c ≥ T ( x ) c { X | T ( X ) ≥ c & c ≥ T ( x ) }{ X| T( X) ≥ c } x x c ≥ T( X ) c { X| T( X) ≥ c & c ≥ T( x ) }
Obviamente, o maior tal que deve ser e, em seguida, o conjunto supra se tornac ≥ T ( x ) c = T ( x ) { X | T ( X ) ≥ c = T ( x ) } = { Xc c ≥ T( X ) c = T(X ) { X| T( X) ≥ c = T( X ) } = { X| T( X) ≥ T( x ) }
fonte
Na definição 2, o valor- de uma estatística de teste é o maior limite inferior de todos modo que a hipótese é rejeitada para um teste de tamanho . Lembre-se de que quanto menor fizermos , menor será a tolerância ao erro do tipo I, portanto a região de rejeição também diminuirá. Então (de maneira muito informal), o valor- é o menor que podemos escolher que ainda nos permite rejeitar pelos dados que observamos. Não podemos escolher arbitrariamente um menor porque, em algum momento,α α α R α p α H 0 α R αp α α α Rα p α H0 α Rα será tão pequeno que excluirá (ou seja, não conterá) o evento que observamos.
Agora, à luz do exposto, convido você a reconsiderar o teorema.
fonte