sutileza do valor-p: maior-igual vs. maior

11

Ao ler o livro All of Statistics, de Wassermann, noto uma sutileza na definição de valores-p, da qual não consigo entender. Informalmente, o Wassermann define o valor-p como

[..] a probabilidade (em H0 ) de observar um valor da estatística de teste igual ou mais extremo do que o que foi realmente observado.

Enfase adicionada. O mesmo mais formalmente (Teorema 10.12):

Suponha que o teste de tamanho α tenha a forma

rejeite H0 se e somente se T(Xn)cα .

Então,

p-value=supθΘ0Pθ0[T(Xn)T(xn)]

onde é o valor observado de . Se então xnXnΘ0={θ0}

p-value=Pθ0[T(Xn)T(xn)]

Além disso, Wassermann define o valor p do teste Pearson (e outros testes analogamente) como:χ2

p-value=P[χk12>T].

A parte que eu gostaria de pedir esclarecimentos é o sinal de maior-igual ( ) no primeiro e o maior ( ) na segunda definição. Por que não escrevemos , que corresponderia à primeira citação de " igual ou mais extremo"?>T

É pura conveniência para calcularmos o valor de p como ? Percebo que R também usa a definição com o sinal , por exemplo, em .1F(T)>chisq.test

mavam
fonte
5
Você está ciente de que o valor-p é o mesmo para as duas definições se a estatística de teste for contínua?
mark999
3
Não importa distribuições contínuas, mas esse fato não deve tentá-lo a esquecer a distinção entre e porque matematicamente importa. Isso também é importante nas aplicações porque, devido à "discrição da vida real", podemos de fato encontrar valores-p exatamente . <α
Horst Grünbusch

Respostas:

11

"Como ou mais extremo" está correto.

Formalmente, então, se a distribuição é tal que a probabilidade de obter a própria estatística de teste é positiva, essa probabilidade (e qualquer coisa igualmente extrema, como o valor correspondente na outra cauda) deve ser incluída no valor p.

Obviamente, com uma estatística contínua, essa probabilidade de igualdade exata é 0. Não faz diferença se dissermos ou .>

Glen_b -Reinstate Monica
fonte
4

O primeiro ponto de é que o espaço de hipóteses é topologicamente fechado dentro de todo o espaço de parâmetros. Sem considerar a aleatoriedade, isso pode ser uma convenção útil se você tiver alguma afirmação sobre uma sequência convergente de parâmetros pertencentes à hipótese, porque você saberia que o limite não pertence repentinamente à alternativa.

Agora, considerando as distribuições de probabilidade, elas são (geralmente) contínuas à direita. Isso significa que o mapeamento do espaço de hipótese fechado para o intervalo é fechado novamente. É por isso que os intervalos de confiança também são fechados por convenção.[0,1]

Isso aprimora a matemática. Imagine que você construa um intervalo de confiança para o parâmetro de localização de uma distribuição de probabilidade assimétrica. Lá, você teria que trocar o comprimento para a cauda superior pelo comprimento para a cauda inferior. A probabilidade em ambas as caudas deve somar . Para que o IC seja o mais informativo possível, é necessário encurtar o comprimento do IC, para que sua probabilidade de cobertura ainda seja . Este é um conjunto fechado. Você pode encontrar uma solução ótima lá por algum algoritmo iterativo, por exemplo, o teorema do ponto fixo de Banach. Se fosse um conjunto aberto, você não pode fazer isso.α1α

Horst Grünbusch
fonte