Questão:
Um mal - entendido comum dos valores-p é que eles representam a probabilidade da hipótese nula ser verdadeira. Sei que isso não está correto e sei que os valores p representam apenas a probabilidade de encontrar uma amostra tão extrema quanto essa, uma vez que a hipótese nula é verdadeira. No entanto, intuitivamente, deve-se conseguir derivar o primeiro deste último. Deve haver uma razão pela qual ninguém está fazendo isso. Que informações estão faltando que nos impedem de derivar a probabilidade de hipótese ser verdadeira a partir do valor-p e dados relacionados?
Exemplo:
Nossa hipótese é "A vitamina D afeta o humor" (hipótese nula sendo "sem efeito"). Digamos que realizamos um estudo estatístico apropriado com 1000 pessoas e encontramos uma correlação entre humor e níveis de vitamina. Sendo todas as outras coisas iguais, um valor p de 0,01 indica maior probabilidade de hipótese verdadeira do que um valor p de 0,05. Digamos que obtemos um valor p de 0,05. Por que não podemos calcular a probabilidade real de que nossa hipótese seja verdadeira? Que informação estamos perdendo?
Terminologia alternativa para estatísticos freqüentistas:
Se você aceita a premissa da minha pergunta, pode parar de ler aqui. O seguinte é para pessoas que se recusam a aceitar que uma hipótese pode ter uma interpretação de probabilidade. Vamos esquecer a terminologia por um momento. Em vez de...
Digamos que você está apostando com seu amigo. Seu amigo mostra mil estudos estatísticos sobre assuntos não relacionados. Para cada estudo, você só pode observar o valor de p, o tamanho da amostra e o desvio padrão da amostra. Para cada estudo, seu amigo oferece algumas chances de apostar que a hipótese apresentada no estudo é verdadeira. Você pode optar por fazer a aposta ou não. Depois de fazer apostas para todos os 1000 estudos, um oráculo sobe sobre você e informa quais hipóteses estão corretas. Esta informação permite que você faça as apostas. Minha reivindicação é que existe uma estratégia ideal para este jogo. Na minha visão de mundo, isso é equivalente a saber que probabilidades de hipóteses são verdadeiras, mas se discordarmos disso, tudo bem. Nesse caso, podemos simplesmente falar sobre maneiras de empregar valores-p para maximizar a expectativa para as apostas.
fonte
Respostas:
Outras respostas são todas filosóficas, mas não vejo por que é necessário aqui. Vamos considerar o seu exemplo:
Para , recebendo p = 0,05 corresponde ao coeficiente de correlação amostra ρ = 0,062 . A hipótese nula é H 0 : ρ = 0 . A hipótese alternativa é H 1 : ρ ≠ 0 .n=1000 p=0.05 ρ^=0.062 H0:ρ=0 H1:ρ≠0
O valor de p é e que pode calcular-lo com base na distribuição de amostras de ρ sob o nulo; nada mais é necessário.
Você deseja calcular
e para isso você precisa de um monte de ingredientes adicionais. De fato, aplicando o teorema de Bayes, podemos reescrevê-lo da seguinte forma:
Portanto, para calcular a probabilidade posterior do nulo, você precisa ter duas coisas adicionais:
Se você estiver disposto a assumir que --- mesmo que eu pessoalmente não tenha certeza do por que isso deveria ser uma suposição significativa, --- você ainda precisará assumir a distribuição de ρ sob alternativa. Nesse caso, você poderá calcular algo chamado fator Bayes :P( ρ = 0 ) = 0,5 ρ
Como você pode ver, o fator de Bayes que não dependem da probabilidade prévia do nulo, mas não dependem da probabilidade prévia de (sob a alternativa).ρ
[Observe que o nomeador no fator Bayes não é o valor p, por causa da igualdade em vez do sinal de desigualdade. Portanto, ao calcular o fator Bayes ou , não estamos usando oprópriovalor de p. Mas é evidente que estamos usando a distribuição amostral P ( ρP( H0 0) .]P( ρ^|ρ = 0 )
fonte
Quid est veritas?
Posso aceitar a resposta da @ ameba tão prontamente quanto o pôster original. Eu aviso, no entanto, que em todo o meu trabalho, não encontrei uma análise bayesiana que calculasse "a probabilidade de que a hipótese nula seja verdadeira". E essa conclusão atrairia uma série de argumentos daqueles que revisam seu trabalho! Filosoficamente, ele faztraga-nos de volta à pergunta: "o que é verdade?" Talvez a "verdade" seja irrefutável, até para evidenciar a si mesma. A estatística é uma ferramenta da ciência para quantificar a incerteza. Eu ainda mantenho que, embora as evidências possam apontar fortemente para uma verdade, sempre há o risco de um achado falso positivo, e o Bom Estatístico deve relatar esse risco. Mesmo no teste teórico da decisão bayesiana, é dada uma regra de decisão para que possamos aceitar ou rejeitar hipóteses baseadas em fatores de Bayes que são aproximadamente proporcionais a , mas nossa crença nunca é 1 ouPr ( H0 0| X) 1 1 mesmo quando nossa decisão é. A teoria da decisão nos fornece um meio de "avançar" com o conhecimento parcial e a aceitação desses riscos.0 0
Parte da justificativa para o teste estatístico de hipóteses nulas (NHST) e o valor é a filosofia de falsificação de Karl Popper . Nisso: uma suposição crítica é de que a "verdade" nunca é conhecida; só podemos diminuir outras hipóteses. Uma crítica interessante e válida ao NHST é que você é forçado a fazer suposições ridículas, como se o fumo nãop causa câncer quando você está realmente interessado em um estudo descritivo (não inferencial): e você está apenas descrevendo o quanto o câncer causa .
A crítica inversa foi aplicada aos estudos bayesianos, nos quais é possível aplicar liberalmente os anteriores: Dennis Lindley disse: "Com probabilidade prévia 0 de que a lua é feita de queijo, os astronautas que retornam com os braços cheios de queijo ainda não conseguiram convencer".
A informação que falta para determinar se a hipótese nula é verdadeira é, trivialmente, o conhecimento sobre se a hipótese nula é verdadeira. Ironicamente, quando focados em estatística descritiva, podemos aceitar faixas toleráveis de possíveis efeitos e concluir com certa firmeza que uma tendência provavelmente é verdadeira: mas o teste estatístico não nos leva a tais descobertas. Mesmo na inferência bayesiana, nenhum dado levará a um posterior singular sem ter algumas questões metodológicas; portanto, a incorporação de um anterior não resolve esse problema.
fonte
Existem duas tentativas de fazer exatamente o que você disse na história estatística, o Bayesiano e o Fiducial. RA Fisher fundou duas escolas de pensamento estatístico, a escola Likelihoodist, construída em torno do método da máxima verossimilhança, e a Fiducial, que terminou em fracasso, mas que tenta fazer exatamente o que você deseja.
A resposta curta de por que fracassou é que suas distribuições de probabilidade não acabaram se integrando à unidade. A lição, no final, foi que a probabilidade anterior é uma coisa necessária para criar o que você está tentando criar. Na verdade, você está seguindo o caminho de um dos maiores estatísticos da história e mais do que alguns dos outros grandes nomes morreram na esperança de resolver o problema. Se fosse encontrado, colocaria os métodos de hipótese nula em pé de igualdade com os métodos bayesianos em termos dos tipos de problemas que eles poderiam resolver. De fato, passaria por Bayes, exceto onde existissem informações prévias reais.
Você também deseja ter cuidado com sua afirmação de que um valor p indica uma probabilidade mais alta para a alternativa. Isso é verdade apenas na escola Fisherian Likelihoodist. Não é de todo verdade na escola Frequentist Pearson-Neyman. Sua aposta na parte inferior parece ser uma aposta de Pearson-Neyman, enquanto seu valor-p é incompatível, pois é proveniente da escola dos Pescadores.
Para ser caridoso, assumirei que, para o seu exemplo, não há viés de publicação e, portanto, apenas resultados significativos aparecem em periódicos, criando uma alta taxa de descoberta falsa. Estou tratando isso como uma amostra aleatória de todos os estudos realizados, independentemente dos resultados. Eu argumentaria que suas chances de aposta não seriam coerentes no sentido clássico de Finetti da palavra.
No mundo de Finetti, uma aposta é coerente se o apostador não puder ser apostado pelos jogadores para que eles enfrentem uma perda certa. Na construção mais simples, é como a solução para o problema de cortar o bolo. Uma pessoa corta a peça ao meio, mas a outra pessoa escolhe a peça que deseja. Nesta construção, uma pessoa indicaria os preços das apostas em cada hipótese, mas a outra pessoa escolheria comprar ou vender a aposta. Em essência, você pode vender a descoberto a curto prazo. Para ser ideal, as chances teriam que ser estritamente justas. Valores-p não levam a chances justas.
Para ilustrar isso, considere o estudo de Wetzels, et al. Em http://ejwagenmakers.com/2011/WetzelsEtAl2011_855.pdf
A citação para a qual é: Ruud Wetzels, Dora Matzke, Michael D. Lee, Jeffrey N. Rounder, Geoffrey J. Iverson e Eric-Jan Wagenmakers. Evidência estatística em psicologia experimental: uma comparação empírica usando testes de 855 t. Perspectivas em Ciência Psicológica. 6 (3) 291-298. 2011
Esta é uma comparação direta de 855 testes t publicados usando fatores de Bayes para contornar o problema da distribuição anterior. Em 70% dos valores de p entre 0,05 e 0,01, os fatores de Bayes foram, na melhor das hipóteses, anedóticos. Isso se deve à forma matemática usada pelos freqüentistas para resolver o problema.
Os métodos de hipótese nula presumem que o modelo é verdadeiro e, por sua construção, usam uma distribuição estatística minimax ao invés de uma distribuição de probabilidade. Esses dois fatores afetam as diferenças entre soluções bayesianas e não bayesianas. Considere um estudo em que o método bayesiano avalia a probabilidade posterior de uma hipótese em três por cento. Imagine que o valor-p seja menor que cinco por cento. Ambos são verdadeiros, pois três por cento é inferior a cinco por cento. No entanto, o valor-p não é uma probabilidade. Ele afirma apenas o valor máximo que poderia ser a probabilidade de visualizar os dados, e não a probabilidade real de uma hipótese ser verdadeira ou falsa. De fato, na construção do valor-p, você não pode distinguir entre efeitos devido ao acaso com um nulo verdadeiro e um nulo falso com bons dados.
Se você olhar para o estudo de Wetzel, notará que é muito óbvio que as probabilidades implícitas nos valores-p não coincidem com as probabilidades implícitas na medida bayesiana. Como a medida bayesiana é admissível e coerente, e a não bayesiana não é coerente, não é seguro assumir o mapa dos valores-p para as verdadeiras probabilidades. A suposição forçada de que o nulo é válido fornece boas probabilidades de cobertura, mas não produz boas probabilidades de jogo.
Para entender melhor o porquê, considere o primeiro axioma de Cox de que a plausibilidade de uma hipótese pode ser descrita por um número real. Implicitamente, isso significa que todas as hipóteses têm um número real vinculado à sua plausibilidade. Nos métodos de hipótese nula, apenas o nulo tem um número real vinculado à sua plausibilidade. A hipótese alternativa não possui mensuração e certamente não é o complemento da probabilidade de observação dos dados, dado que o nulo é verdadeiro. De fato, se o nulo for verdadeiro, o complemento é falso por suposição, sem levar em consideração os dados.
Se você construiu as probabilidades usando valores-p como base de sua medição, o bayesiano usando medidas bayesianas sempre seria capaz de obter uma vantagem sobre você. Se o bayesiano definir as probabilidades, a teoria da decisão de Pearson e Neyman forneceria uma declaração de aposta ou não, mas eles não seriam capazes de definir o valor da aposta. Como as probabilidades bayesianas eram justas, o ganho esperado com o uso do método de Pearson e Neyman seria zero.
De fato, o estudo de Wetzel é realmente o que você está falando sobre fazer, mas com 145 apostas a menos. Se você observar a tabela três, verá alguns estudos em que o Frequentista rejeita o nulo, mas o Bayesiano descobre que a probabilidade favorece o nulo.
fonte
Uma análise frequentista não pode dar a probabilidade de uma hipótese específica ser verdadeira (ou falsa) porque não tem frequência de longo prazo (é verdadeira ou não), portanto, não podemos atribuir uma probabilidade a ela (exceto talvez 0 ou 1). ) Se você deseja saber a probabilidade de uma hipótese específica ser verdadeira, precisamos adotar uma estrutura bayesiana (onde é direta, basta considerar as probabilidades anteriores, etc.).
Os freqüentistas podem encontrar estratégias ótimas para atuar em testes de hipóteses nulas (estrutura de Neyman-Pearson ), mas não podem traduzir isso em uma probabilidade de que a hipótese seja verdadeira, mas apenas por causa de sua definição de probabilidade.
fonte
O problema na sua instalação é o Oracle. Geralmente não vem para acertar as apostas. Digamos, você está apostando que a probabilidade de que seja verdade que fumar causa câncer é de 97%. Quando esse Oracle chegará para acertar a aposta? Nunca. Então, como você provaria que sua estratégia ideal é ideal?
No entanto, se você remover um Oracle e apresentar outros agentes, como concorrentes e clientes, haveria uma estratégia ideal. Receio que não seja baseado em valores-p. Seria mais semelhante à abordagem de Gosset com funções de perda. Por exemplo, você e seus concorrentes no setor agrícola estão apostando na previsão do tempo. Quem escolhe uma estratégia melhor vai ganhar mais dinheiro. Não há necessidade na Oracle, e as apostas são liquidadas nos mercados. Você não pode basear a estratégia em valores-p aqui, é necessário contabilizar perdas e lucros em dólares.
fonte
Para uma discussão sobre valores-p, consulte Entendendo mal um valor-P?
fonte