Usando o valor p para calcular a probabilidade de hipótese ser verdadeira; o que mais é necessário?

9

Questão:

Um mal - entendido comum dos valores-p é que eles representam a probabilidade da hipótese nula ser verdadeira. Sei que isso não está correto e sei que os valores p representam apenas a probabilidade de encontrar uma amostra tão extrema quanto essa, uma vez que a hipótese nula é verdadeira. No entanto, intuitivamente, deve-se conseguir derivar o primeiro deste último. Deve haver uma razão pela qual ninguém está fazendo isso. Que informações estão faltando que nos impedem de derivar a probabilidade de hipótese ser verdadeira a partir do valor-p e dados relacionados?


Exemplo:

Nossa hipótese é "A vitamina D afeta o humor" (hipótese nula sendo "sem efeito"). Digamos que realizamos um estudo estatístico apropriado com 1000 pessoas e encontramos uma correlação entre humor e níveis de vitamina. Sendo todas as outras coisas iguais, um valor p de 0,01 indica maior probabilidade de hipótese verdadeira do que um valor p de 0,05. Digamos que obtemos um valor p de 0,05. Por que não podemos calcular a probabilidade real de que nossa hipótese seja verdadeira? Que informação estamos perdendo?


Terminologia alternativa para estatísticos freqüentistas:

Se você aceita a premissa da minha pergunta, pode parar de ler aqui. O seguinte é para pessoas que se recusam a aceitar que uma hipótese pode ter uma interpretação de probabilidade. Vamos esquecer a terminologia por um momento. Em vez de...

Digamos que você está apostando com seu amigo. Seu amigo mostra mil estudos estatísticos sobre assuntos não relacionados. Para cada estudo, você só pode observar o valor de p, o tamanho da amostra e o desvio padrão da amostra. Para cada estudo, seu amigo oferece algumas chances de apostar que a hipótese apresentada no estudo é verdadeira. Você pode optar por fazer a aposta ou não. Depois de fazer apostas para todos os 1000 estudos, um oráculo sobe sobre você e informa quais hipóteses estão corretas. Esta informação permite que você faça as apostas. Minha reivindicação é que existe uma estratégia ideal para este jogo. Na minha visão de mundo, isso é equivalente a saber que probabilidades de hipóteses são verdadeiras, mas se discordarmos disso, tudo bem. Nesse caso, podemos simplesmente falar sobre maneiras de empregar valores-p para maximizar a expectativa para as apostas.

Atte Juvonen
fonte
Veja, por exemplo: math.tut.fi/~piche/bayes/notes06.pdf
klumbard
13
"Que informação estamos perdendo" - a probabilidade anterior de H0 ser verdadeira. É apenas o teorema de Bayes; para calcular o posterior, você precisa ter um prévio.
Ameba
11
@ Adamo Não vejo como isso se segue da regra de Cromwell, que é sobre o anterior, não o posterior. Eu acho que você pode estar confundindo "verdade" com "certo conhecimento". Se estivéssemos interessados ​​em determinado conhecimento, estaríamos usando a lógica, em vez do raciocínio probabilístico.
Dikran Marsupial
11
@AdamO eu não sigo. O OP perguntou: "Quais são as informações que nos faltam que nos impedem de derivar a probabilidade de a hipótese ser verdadeira a partir do valor-p e dados relacionados?" O que a probabilidade 1 e conhecer algo como verdade têm a ver com isso?
Ameba
11
Em resposta ao seu comentário anterior @Atte: bem, se alguém quiser assumir um anterior de 0,5, então tudo bem, mas não vejo por que isso sempre deve ser uma suposição significativa. De qualquer forma, é uma suposição.
Ameba

Respostas:

5

Outras respostas são todas filosóficas, mas não vejo por que é necessário aqui. Vamos considerar o seu exemplo:

Nossa hipótese é "A vitamina D afeta o humor" (hipótese nula sendo "sem efeito"). Digamos que realizamos um estudo estatístico apropriado com 1000 pessoas e encontramos uma correlação entre humor e níveis de vitamina. Sendo todas as outras coisas iguais, um valor p de 0,01 indica maior probabilidade de hipótese verdadeira do que um valor p de 0,05. Digamos que obtemos um valor p de 0,05. Por que não podemos calcular a probabilidade real de que nossa hipótese seja verdadeira? Que informação estamos perdendo?

Para , recebendo p = 0,05 corresponde ao coeficiente de correlação amostra ρ = 0,062 . A hipótese nula é H 0 : ρ = 0 . A hipótese alternativa é H 1 : ρ 0 .n=1000p=0.05ρ^=0.062H0:ρ=0H1:ρ0

O valor de p é e que pode calcular-lo com base na distribuição de amostras de ρ sob o nulo; nada mais é necessário.

p-value=P(|ρ^|0.062|ρ=0),
ρ^

Você deseja calcular

P(H0|data)=P(ρ=0|ρ^=0.062),

e para isso você precisa de um monte de ingredientes adicionais. De fato, aplicando o teorema de Bayes, podemos reescrevê-lo da seguinte forma:

P(ρ^=0,062|ρ=0 0)P(ρ=0 0)P(ρ^=0,062|ρ=0 0)P(ρ=0 0)+P(ρ^=0,062|ρ0 0)(1 1-P(ρ=0 0)).

Portanto, para calcular a probabilidade posterior do nulo, você precisa ter duas coisas adicionais:

  1. Antes que a hipótese nula fosse verdadeira: .P(ρ=0 0)
  2. Suposição sobre como é distribuído se a hipótese alternativa for verdadeira. Isto é necessário para calcular a P ( ρ = 0,062ρ termo.P(ρ^=0,062|ρ0 0)

Se você estiver disposto a assumir que --- mesmo que eu pessoalmente não tenha certeza do por que isso deveria ser uma suposição significativa, --- você ainda precisará assumir a distribuição de ρ sob alternativa. Nesse caso, você poderá calcular algo chamado fator Bayes :P(ρ=0 0)=0,5ρ

B=P(ρ^=0,062|ρ=0 0)P(ρ^=0,062|ρ0 0).

Como você pode ver, o fator de Bayes que não dependem da probabilidade prévia do nulo, mas não dependem da probabilidade prévia de (sob a alternativa).ρ

[Observe que o nomeador no fator Bayes não é o valor p, por causa da igualdade em vez do sinal de desigualdade. Portanto, ao calcular o fator Bayes ou , não estamos usando oprópriovalor de p. Mas é evidente que estamos usando a distribuição amostral P ( ρP(H0 0) .]P(ρ^|ρ=0 0)

ameba
fonte
A pergunta é sobre "a probabilidade de que é verdadeira '', Você acha que os Bayesians calcular isso? Ou será que eles calcular o '' credibilidade '' de H 0 sendo verdadeiro? Ie eles calcular o seu grau de crença de que H 0 é verdadeira (com base nos dados que observam) ou eles calcular a probabilidade de que H 0 é verdadeiro?H0 0H0 0H0 0H0 0
2
Não entendo a distinção que você está fazendo no @fcop. Na visão bayesiana do mundo, probabilidade é o grau de crença ( por exemplo, veja aqui ).
Ameba
Então, por que eles chamam de "credibilidade"?
11
Desculpe @fcop, eu não quero ter uma discussão filosófica ou semântica aqui. O OP está perguntando o que é necessário para calcular e eu estava respondendo a essa pergunta específica do ponto de vista matemático. P(H0 0)
Ameba
7

Quid est veritas?

Posso aceitar a resposta da @ ameba tão prontamente quanto o pôster original. Eu aviso, no entanto, que em todo o meu trabalho, não encontrei uma análise bayesiana que calculasse "a probabilidade de que a hipótese nula seja verdadeira". E essa conclusão atrairia uma série de argumentos daqueles que revisam seu trabalho! Filosoficamente, ele faztraga-nos de volta à pergunta: "o que é verdade?" Talvez a "verdade" seja irrefutável, até para evidenciar a si mesma. A estatística é uma ferramenta da ciência para quantificar a incerteza. Eu ainda mantenho que, embora as evidências possam apontar fortemente para uma verdade, sempre há o risco de um achado falso positivo, e o Bom Estatístico deve relatar esse risco. Mesmo no teste teórico da decisão bayesiana, é dada uma regra de decisão para que possamos aceitar ou rejeitar hipóteses baseadas em fatores de Bayes que são aproximadamente proporcionais a , mas nossa crença nunca é 1 ouPr(H0 0|X)1 1 mesmo quando nossa decisão é. A teoria da decisão nos fornece um meio de "avançar" com o conhecimento parcial e a aceitação desses riscos.0 0

Parte da justificativa para o teste estatístico de hipóteses nulas (NHST) e o valor é a filosofia de falsificação de Karl Popper . Nisso: uma suposição crítica é de que a "verdade" nunca é conhecida; só podemos diminuir outras hipóteses. Uma crítica interessante e válida ao NHST é que você é forçado a fazer suposições ridículas, como se o fumo nãop causa câncer quando você está realmente interessado em um estudo descritivo (não inferencial): e você está apenas descrevendo o quanto o câncer causa .

A crítica inversa foi aplicada aos estudos bayesianos, nos quais é possível aplicar liberalmente os anteriores: Dennis Lindley disse: "Com probabilidade prévia 0 de que a lua é feita de queijo, os astronautas que retornam com os braços cheios de queijo ainda não conseguiram convencer".

A informação que falta para determinar se a hipótese nula é verdadeira é, trivialmente, o conhecimento sobre se a hipótese nula é verdadeira. Ironicamente, quando focados em estatística descritiva, podemos aceitar faixas toleráveis ​​de possíveis efeitos e concluir com certa firmeza que uma tendência provavelmente é verdadeira: mas o teste estatístico não nos leva a tais descobertas. Mesmo na inferência bayesiana, nenhum dado levará a um posterior singular sem ter algumas questões metodológicas; portanto, a incorporação de um anterior não resolve esse problema.

AdamO
fonte
11
"" Com probabilidade prévia 0 de que a lua é feita de queijo ", mas com" cogito ergo sum "(e talvez nem isso) seja tudo o que sabemos com certeza, devemos dar uma probabilidade prévia de 0 de que a lua seja feita de queijo 0 e 1 devem ser reservados para o logicamente impossível e certo, e eps e 1-eps para declarações sobre o mundo real.A estrutura bayesiana é ótima, desde que seus priores representem com precisão seu conhecimento prévio do problema (mas isso por si só é um problema).
Dikran Marsupial
11
@DikranMarsupial Seu argumento contra esse uso de 0/1 é precisamente o que a citação está sugerindo. Isso ridiculariza a situação para explicar a necessidade do que Lindley chama de regra de Cromwell .
Nwn 24/04/19
11
@watarok obrigado pelo link / esclarecimento, parece que a menção na resposta é um pouco enganadora, pois Lindley não está realmente criticando os estudos bayesianos, apenas anteriores muito confiantes.
Dikran Marsupial
@DikranMarsupial Eu acho que a questão dos priores excessivamente confiantes é aquela que pode ser aplicada a todas as estatísticas bayesianas. Um prior não informativo geralmente leva a aproximações e análises freqüentes de qualquer maneira. A diferença está na interpretação: os resultados bayesianos devem se aliar à idéia de uma "verdade" ou "parâmetro verdadeiro". Tudo bem, desde que descrevamos cuidadosamente as suposições e como as taxas de energia e erro são fixadas.
Adamo
@watarok meu professor de estatística bayesiano escocês usou essa citação regularmente, mas nunca descreveu sua relevância. Sou grato por saber agora.
Adamo
6

Existem duas tentativas de fazer exatamente o que você disse na história estatística, o Bayesiano e o Fiducial. RA Fisher fundou duas escolas de pensamento estatístico, a escola Likelihoodist, construída em torno do método da máxima verossimilhança, e a Fiducial, que terminou em fracasso, mas que tenta fazer exatamente o que você deseja.

A resposta curta de por que fracassou é que suas distribuições de probabilidade não acabaram se integrando à unidade. A lição, no final, foi que a probabilidade anterior é uma coisa necessária para criar o que você está tentando criar. Na verdade, você está seguindo o caminho de um dos maiores estatísticos da história e mais do que alguns dos outros grandes nomes morreram na esperança de resolver o problema. Se fosse encontrado, colocaria os métodos de hipótese nula em pé de igualdade com os métodos bayesianos em termos dos tipos de problemas que eles poderiam resolver. De fato, passaria por Bayes, exceto onde existissem informações prévias reais.

Você também deseja ter cuidado com sua afirmação de que um valor p indica uma probabilidade mais alta para a alternativa. Isso é verdade apenas na escola Fisherian Likelihoodist. Não é de todo verdade na escola Frequentist Pearson-Neyman. Sua aposta na parte inferior parece ser uma aposta de Pearson-Neyman, enquanto seu valor-p é incompatível, pois é proveniente da escola dos Pescadores.

Para ser caridoso, assumirei que, para o seu exemplo, não há viés de publicação e, portanto, apenas resultados significativos aparecem em periódicos, criando uma alta taxa de descoberta falsa. Estou tratando isso como uma amostra aleatória de todos os estudos realizados, independentemente dos resultados. Eu argumentaria que suas chances de aposta não seriam coerentes no sentido clássico de Finetti da palavra.

No mundo de Finetti, uma aposta é coerente se o apostador não puder ser apostado pelos jogadores para que eles enfrentem uma perda certa. Na construção mais simples, é como a solução para o problema de cortar o bolo. Uma pessoa corta a peça ao meio, mas a outra pessoa escolhe a peça que deseja. Nesta construção, uma pessoa indicaria os preços das apostas em cada hipótese, mas a outra pessoa escolheria comprar ou vender a aposta. Em essência, você pode vender a descoberto a curto prazo. Para ser ideal, as chances teriam que ser estritamente justas. Valores-p não levam a chances justas.

Para ilustrar isso, considere o estudo de Wetzels, et al. Em http://ejwagenmakers.com/2011/WetzelsEtAl2011_855.pdf

A citação para a qual é: Ruud Wetzels, Dora Matzke, Michael D. Lee, Jeffrey N. Rounder, Geoffrey J. Iverson e Eric-Jan Wagenmakers. Evidência estatística em psicologia experimental: uma comparação empírica usando testes de 855 t. Perspectivas em Ciência Psicológica. 6 (3) 291-298. 2011

Esta é uma comparação direta de 855 testes t publicados usando fatores de Bayes para contornar o problema da distribuição anterior. Em 70% dos valores de p entre 0,05 e 0,01, os fatores de Bayes foram, na melhor das hipóteses, anedóticos. Isso se deve à forma matemática usada pelos freqüentistas para resolver o problema.

Os métodos de hipótese nula presumem que o modelo é verdadeiro e, por sua construção, usam uma distribuição estatística minimax ao invés de uma distribuição de probabilidade. Esses dois fatores afetam as diferenças entre soluções bayesianas e não bayesianas. Considere um estudo em que o método bayesiano avalia a probabilidade posterior de uma hipótese em três por cento. Imagine que o valor-p seja menor que cinco por cento. Ambos são verdadeiros, pois três por cento é inferior a cinco por cento. No entanto, o valor-p não é uma probabilidade. Ele afirma apenas o valor máximo que poderia ser a probabilidade de visualizar os dados, e não a probabilidade real de uma hipótese ser verdadeira ou falsa. De fato, na construção do valor-p, você não pode distinguir entre efeitos devido ao acaso com um nulo verdadeiro e um nulo falso com bons dados.

Se você olhar para o estudo de Wetzel, notará que é muito óbvio que as probabilidades implícitas nos valores-p não coincidem com as probabilidades implícitas na medida bayesiana. Como a medida bayesiana é admissível e coerente, e a não bayesiana não é coerente, não é seguro assumir o mapa dos valores-p para as verdadeiras probabilidades. A suposição forçada de que o nulo é válido fornece boas probabilidades de cobertura, mas não produz boas probabilidades de jogo.

Para entender melhor o porquê, considere o primeiro axioma de Cox de que a plausibilidade de uma hipótese pode ser descrita por um número real. Implicitamente, isso significa que todas as hipóteses têm um número real vinculado à sua plausibilidade. Nos métodos de hipótese nula, apenas o nulo tem um número real vinculado à sua plausibilidade. A hipótese alternativa não possui mensuração e certamente não é o complemento da probabilidade de observação dos dados, dado que o nulo é verdadeiro. De fato, se o nulo for verdadeiro, o complemento é falso por suposição, sem levar em consideração os dados.

Se você construiu as probabilidades usando valores-p como base de sua medição, o bayesiano usando medidas bayesianas sempre seria capaz de obter uma vantagem sobre você. Se o bayesiano definir as probabilidades, a teoria da decisão de Pearson e Neyman forneceria uma declaração de aposta ou não, mas eles não seriam capazes de definir o valor da aposta. Como as probabilidades bayesianas eram justas, o ganho esperado com o uso do método de Pearson e Neyman seria zero.

De fato, o estudo de Wetzel é realmente o que você está falando sobre fazer, mas com 145 apostas a menos. Se você observar a tabela três, verá alguns estudos em que o Frequentista rejeita o nulo, mas o Bayesiano descobre que a probabilidade favorece o nulo.

Dave Harris
fonte
5

Uma análise frequentista não pode dar a probabilidade de uma hipótese específica ser verdadeira (ou falsa) porque não tem frequência de longo prazo (é verdadeira ou não), portanto, não podemos atribuir uma probabilidade a ela (exceto talvez 0 ou 1). ) Se você deseja saber a probabilidade de uma hipótese específica ser verdadeira, precisamos adotar uma estrutura bayesiana (onde é direta, basta considerar as probabilidades anteriores, etc.).

Os freqüentistas podem encontrar estratégias ótimas para atuar em testes de hipóteses nulas (estrutura de Neyman-Pearson ), mas não podem traduzir isso em uma probabilidade de que a hipótese seja verdadeira, mas apenas por causa de sua definição de probabilidade.

Dikran Marsupial
fonte
Você poderia ser mais preciso sobre "não pode traduzir isso em uma probabilidade de que a hipótese seja verdadeira, mas apenas por causa de sua definição de probabilidade", porque não entendo por que esse é o caso?
Os freqüentistas definem probabilidades em termos de frequências de longo prazo, e a verdade de uma hipótese específica não tem frequência (não trivial) de longo prazo, portanto, um freqüentista não pode atribuir uma probabilidade a ela. pt.wikipedia.org/wiki/Frequentist_probability É por isso que dizemos coisas um pouco enigmáticas como "somos capazes de rejeitar a hipótese nula no nível X de significância" em vez de "a probabilidade de H0 ser falso é p" (que é o forma de resposta que geralmente queremos).
Dikran Marsupial
11
p(H0 0=trvocêe)p(H0 0=trvocêe|D)p(D|H0 0=trvocêe)H0 0
veja minha resposta neste tópico, também para @matus.
@DikranMarsupial um bayesiano não aceitaria apenas algo como "verdade" se a probabilidade de um resultado específico for 1 e para todas as outras possibilidades for 0? Você pode conseguir isso em uma análise bayesiana? Você precisaria de uma probabilidade que domine o anterior, mas os freqüentistas e bayesianos teriam que admitir: os dados nos disseram tudo.
Adamo
1

Depois de fazer apostas para todos os 1000 estudos, um oráculo sobe sobre você e informa quais hipóteses estão corretas. Esta informação permite que você faça as apostas. Minha reivindicação é que existe uma estratégia ideal para este jogo.

O problema na sua instalação é o Oracle. Geralmente não vem para acertar as apostas. Digamos, você está apostando que a probabilidade de que seja verdade que fumar causa câncer é de 97%. Quando esse Oracle chegará para acertar a aposta? Nunca. Então, como você provaria que sua estratégia ideal é ideal?

No entanto, se você remover um Oracle e apresentar outros agentes, como concorrentes e clientes, haveria uma estratégia ideal. Receio que não seja baseado em valores-p. Seria mais semelhante à abordagem de Gosset com funções de perda. Por exemplo, você e seus concorrentes no setor agrícola estão apostando na previsão do tempo. Quem escolhe uma estratégia melhor vai ganhar mais dinheiro. Não há necessidade na Oracle, e as apostas são liquidadas nos mercados. Você não pode basear a estratégia em valores-p aqui, é necessário contabilizar perdas e lucros em dólares.

Aksakal
fonte
Por que não podemos simplesmente assumir que um Oracle virá para liquidar as apostas imediatamente?
Atte Juvonen
Por que não podemos supor que, depois de estimar a média da amostra, a Oracle venha e nos diga o que a população quer dizer? É a mesma coisa, se você pensar sobre isso. É simplesmente irreal.
Aksakal
0

H0 0:μeu=1,75H1 1:μeu1,75

H0 0P(H0 0=TRvocêE)

H0 0

Para uma discussão sobre valores-p, consulte Entendendo mal um valor-P?

H0 0H0 0

H0 0:H1 1:

H0 0H0 0

H0 0H0 0H1 1

H0 0H0 0H1 1H0 0

H0 0H1 1

Eles apenas expressam sua crença na "conclusão do teste", derivada de "dados disponíveis".


fonte