O valor-p é uma estimativa pontual?

Como se pode calcular intervalos de confiança para valores-p e como o oposto da estimativa de intervalo é a estimativa pontual: O valor-p é uma estimativa pontual?

confidence-interval estimation p-value estimators point-estimation 00schneider
fonte

Não acredito que se possa calcular intervalos de confiança para um valor-p; é uma estatística calculada a partir dos dados, não um parâmetro que descreve o processo de geração de dados. Claro que você ainda pode perguntar o que uma estatística estima.

Scortchi - Reinstate Monica

@ Scortchi: mas se eu aplicasse, por exemplo, bootstrapping para calcular uma distribuição de valores-p e, em seguida, construísse um intervalo percentual de 95% dessa distribuição de bootstrap, se não for um intervalo de confiança para o valor -p - o que é isso ?

Ameba diz Reinstate Monica

@amoeba: um intervalo de confiança é sobre um parâmetro desconhecido, enquanto o intervalo de inicialização é uma aproximação de uma região de 95% para uma estatística.

Xian

@ Scorthci: Eu vi software que imprime ICs para valores-p. Nesse caso, os valores p aproximados foram calculados por testes de permutação; portanto, se o IC fosse muito amplo (ou seja, valor p e valor p ), você usaria mais permutações antes de fazer inferência.

\in [0, 0.05]

$\in [0, 0.05]$

\in [0.05, 1]

$\in [0.05, 1]$

Cliff AB

@Cliff Não é um intervalo de confiança para a propriedade p-value qua de uma distribuição: é um intervalo de confiança para um estimador estocástico do valor p de um teste para uma amostra específica. Embora pareçam semelhantes, e ambos sejam intervalos, são coisas completamente diferentes.

whuber

Respostas:

As estimativas pontuais e os intervalos de confiança são para parâmetros que descrevem a distribuição, por exemplo, média ou desvio padrão.

Porém, diferentemente de outras estatísticas da amostra, como a média da amostra e o desvio padrão da amostra, o valor p não é um estimador útil de um parâmetro de distribuição interessante. Veja a resposta de @whuber para obter detalhes técnicos.

O valor-p para uma estatística de teste fornece a probabilidade de observar um desvio do valor esperado da estatística de teste tão grande quanto o observado na amostra, calculado sob a suposição de que a hipótese nula é verdadeira. Se você tiver toda a distribuição, ela é consistente com a hipótese nula ou não. Isso pode ser descrito com a variável indicadora (novamente, veja a resposta por @whuber).

Mas o valor p não pode ser usado como um estimador útil da variável do indicador, porque não é consistente, pois o valor p não converge à medida que o tamanho da amostra aumenta se a hipótese nula for verdadeira. Essa é uma maneira alternativa bastante complicada de afirmar que um teste estatístico pode rejeitar ou deixar de rejeitar o nulo, mas nunca o confirma.

Erik
fonte

A maioria dos melhores relatos de testes estatísticos (Lehman, Kiefer, etc.) não se refere a "populações", mas enquadra a situação em termos de estimativa de parâmetros de distribuição. Isso não exige que a aleatoriedade se deva apenas à amostragem e, assim, permite que a teoria se aplique de maneira mais ampla a situações em que a aleatoriedade faz parte de um modelo .

whuber

Mas você contradisse explicitamente que, com a afirmação, "não existem probabilidades associadas à população". Observe também que todos os estimadores estão "explicitamente definidos no nível da amostra". Portanto, é difícil determinar que distinção você está tentando fazer neste post.

whuber

Claro! Mas uma distribuição não é uma população.

whuber

(-1) Eu concordo com a resposta sensorial de @ Tim e a resposta recondicionada do whuber, mas estou lutando para entender essa questão. (1) "Mas o valor p não é um parâmetro populacional, pois é definido explicitamente no nível da amostra": sem dúvida, vale a pena ressaltar, mas o "mas" faz parecer que você está dizendo que um valor p pode é uma estimativa de qualquer coisa, porque é uma estatística de amostra, como se a média da amostra não pudesse ser uma estimativa de qualquer coisa, porque é uma estatística de amostra. ...

Scortchi - Restabelece Monica

(2) "Isso ocorre porque não há probabilidades associadas à população, é considerado fixo, mas desconhecido": (a) O valor p não é calculado a partir da amostra porque "não há probabilidades [.. .] "; (b) como o whuber's apontou, a amostragem de uma população finita é um caso especial; (c) em qualquer caso, simplesmente não decorre do que você disse que o valor-p não estima nada sobre a população.

Scortchi - Reinstate Monica

Sim, poderia ser (e tem sido) argumentado que um valor-p é uma estimativa pontual.

Para identificar qualquer propriedade de uma distribuição que um valor-p possa estimar, teríamos que assumir que é assintoticamente imparcial. Mas, assimptoticamente, a p-valor médio para a hipótese nula é (idealmente, para alguns testes que poderia ser algum outro número diferente de zero) e para qualquer outra hipótese é . Assim, o valor-p pode ser considerado um estimador de metade da função do indicador para a hipótese nula. $1/2$ $0$

É certo que é preciso alguma criatividade para visualizar um valor-p dessa maneira. Poderíamos fazer um pouco melhor vendo o estimador em questão como a decisão que tomamos por meio do valor-p: a distribuição subjacente é um membro da hipótese nula ou da hipótese alternativa? Vamos chamar esse conjunto de possíveis decisões . Jack Kiefer escreve $D$

Supomos que exista um experimento cujo resultado o estatístico possa observar. Este resultado é descrito por uma variável aleatória ou vetor aleatório .... A lei de probabilidade de é desconhecida pelo estatístico, mas sabe-se que a função de distribuição de é membro de uma classe especificada de funções de distribuição. ... $X$ $X$ $F$ $X$ $\Omega$

Diz-se que um problema estatístico é um problema de estimativa pontual se é a coleção de possíveis valores de alguma propriedade real ou com valor vetorial de que depende de de uma maneira razoavelmente suave. $D$ $F$ $F$

Nesse caso, como é discreto, "razoavelmente suave" não é uma restrição. A terminologia de Kiefer reflete isso referindo-se a procedimentos estatísticos com espaços de decisão discretos como "testes" em vez de "estimadores pontuais". $D$

Embora seja interessante explorar os limites (e limitações) de tais definições, como esta pergunta nos convida a fazer, talvez não devamos insistir muito fortemente que um valor-p é um estimador de pontos, porque essa distinção entre estimadores e testes é tanto útil e convencional.

Em um comentário a essa pergunta, Christian Robert chamou a atenção para um artigo de 1992 em que ele e os co-autores adotaram exatamente esse ponto de vista e analisaram a admissibilidade do valor-p como estimador da função do indicador . Veja o link nas referências abaixo. O artigo começa,

As abordagens para o teste de hipóteses geralmente tratam o problema do teste como um processo de tomada de decisão e não de estimativa. Mais precisamente, um teste formal de hipótese resultará em uma conclusão sobre se uma hipótese é verdadeira e não fornecerá uma medida de evidência para associar a essa conclusão. Neste artigo , consideramos o teste de hipóteses como um problema de estimativa dentro de uma estrutura teórica da decisão ....

[Enfase adicionada.]

Referências

Jiunn Tzon Hwang, George Casella, Christian Robert, Martin T. Wells e Roger H. Farrell, Estimação de precisão em testes . Ann. Statist. Volume 20, Número 1 (1992), 490-509. Acesso aberto .

Jack Carl Kiefer, Introdução à Inferência Estatística . Springer-Verlag, 1987.

whuber
fonte

Hmm. Não tenho certeza se essa visão é útil. Para um nesse sentido, o valor-p não é um bom estimador, pois não é consistente se a hipótese nula for verdadeira. E, em alguns casos (você mencionou isso), também possui um viés dependente do tamanho da amostra. Pode ser verdade técnica, mas qualquer número aleatório também pode ser um estimador (terrível) para qualquer parâmetro.

Erik

A pergunta não pergunta se o valor-p é um bom estimador, @Erik. Como estimador, possui deficiências óbvias. Por exemplo, sua variação assintótica para a hipótese nula é diferente de zero. Observe que o viés de quase todos os estimadores imparciais depende do tamanho da amostra. Embora você esteja certo de que um número aleatório independente possa ser visto como um estimador, seria um estimador de algo diferente: estimaria sua própria média (por definição). Assim, suas objeções parecem não ter nenhuma relevância para a questão em questão.

whuber

Não acho que discordemos de nenhum desses pontos, @Erik, exceto, talvez, a parte "inútil". Como Nick Cox aponta em um comentário em outro lugar deste tópico, é interessante considerar o sentido em que um valor-p pode ser considerado um estimador e o que, exatamente, poderia estar estimando. Isso pode nos ajudar a entender um pouco melhor o que é um valor-p (e não é). Muitos considerariam isso um exercício útil .

whuber

p

$p$

I_{Θ_{0}} (θ)

$\mathbb{I}_{\Theta_0}(\theta)$

@ Xi'an vejo que estamos apenas 23 anos atrás de você .... Obrigado pela referência!

whuber

$p$ $\mu$ $\overline x$ $\mu$ $p < 0.05$ $p$ $p$

Tim
fonte

Sua declaração inicial ecoa corretamente como as coisas são frequentemente explicadas, mas, no entanto, não é profunda o suficiente. Um fato básico aqui é a variação da amostra, a variabilidade de amostra para amostra. Pegue uma amostra diferente e seu valor P será diferente. É preciso um pouco de engenhosidade para ver exatamente o que está estimando, e não é (tanto quanto eu sei) convencional explicá-lo como estimando um parâmetro, mas esse ponto de vista faz todo o sentido. Veja a resposta interessante do @ whuber. (Todo o território está cheio de paráfrases enlameados com base na necessidade de simplificar para o ensino.)

Nick Cox

Como os termos são usados é interessante e importante (e uma preocupação pessoal, a propósito). A pergunta permanece: que um P-valor é . Isso também é apontado [trocadilho inevitável aqui] em outras partes deste segmento. É uma convenção útil considerar os parâmetros como aqueles desconhecidos que aparecem em uma especificação de modelo, mas também existem outros desconhecidos.

Nick Cox

p < 0.05

$p<0.05$

p < 0.01

$p<0.01$

p < 0.001

$p<0.001$

p = 0.003

$p=0.003$

p < 0.05

$p<0.05$

α

$\alpha$

p < α

$p<\alpha$

Ameba diz Reinstate Monica

Esta questão se cruza com muitas outras, a maioria das quais é altamente controversa. Uma é a idealização de que o objetivo de um teste é tomar uma decisão sim ou não, o que não corresponde a todos os problemas. Outro fato importante é que o uso de níveis de limiar foi durante décadas um assunto em que as pessoas usavam tabelas publicadas de tabelas impressas e os valores exatos de P estavam fora de alcance enquanto as pessoas não usavam computadores.

Nick Cox

@ 00schneider: Se você vir um intervalo dado para valores-p, é muito improvável que seja um intervalo de confiança para o parâmetro de população definido pelo whuber. O ponto de Tim é que não há necessidade de considerá-los como estimadores de qualquer coisa, por mais interessante que seja.

Scortchi - Reinstate Monica