Por que as pessoas usam valores-p em vez de calcular a probabilidade do modelo dado dados?

43

Grosso modo, um valor p dá uma probabilidade do resultado observado de um experimento, dada a hipótese (modelo). Tendo essa probabilidade (valor-p), queremos julgar nossa hipótese (qual a probabilidade). Mas não seria mais natural calcular a probabilidade da hipótese, dado o resultado observado?

Em mais detalhes. Nós temos uma moeda. Viramos 20 vezes e obtemos 14 cabeças (14 em 20 é o que chamo de "resultado do experimento"). Agora, nossa hipótese é que a moeda é justa (as probabilidades de cabeça e cauda são iguais entre si). Agora calculamos o valor-p, que é igual à probabilidade de obter 14 ou mais cabeças em 20 jogadas de moeda. OK, agora temos essa probabilidade (0,058) e queremos usá-la para julgar nosso modelo (como é provável que tenhamos uma moeda justa).

Mas se queremos estimar a probabilidade do modelo, por que não calculamos a probabilidade do modelo, dada a experiência? Por que calculamos a probabilidade do experimento dado o modelo (valor-p)?

romano
fonte
Você ainda teria que modelar seu experimento de alguma forma para poder calcular a função de probabilidade.
Raskolnikov
11
Pete Dixon escreveu um artigo em 1998 chamado "Por que os cientistas valorizam os valores-p" ( psychonomic.org/backissues/1631/R382.pdf ) que pode ser uma leitura informativa. Um bom acompanhamento seria o artigo de Glover & Dixon, de 2004, sobre a razão de verossimilhança como uma métrica de substituição ( pbr.psychonomic-journals.org/content/11/5/791.full.pdf ).
Mike Lawrence
2
Mike, isso parece suspeito como uma boa resposta para mim. O que está fazendo nos comentários?
Matt Parker
John D Cook postou uma excelente resposta a uma pergunta minha, que acho interessante: stats.stackexchange.com/questions/1164/…
doug
As pessoas não usam valores-p, os estatísticos usam. (Não foi possível resistir a um provérbio conciso que também é verdade, claro, quando você começar a qualificar adequadamente cada substantivo, ele perde sua pithiness..)
Wayne

Respostas:

31

O cálculo da probabilidade de que a hipótese esteja correta não se encaixa bem na definição freqüentista de probabilidade (uma frequência de longo prazo), que foi adotada para evitar a suposta subjetividade da definição bayesiana de probabilidade. A verdade de uma hipótese específica não é uma variável aleatória, é verdadeira ou não é e não tem frequência de longo prazo. De fato, é mais natural estar interessado na probabilidade da verdade da hipótese, que é o IMHO por que os valores de p são frequentemente mal interpretados como a probabilidade de que a hipótese nula seja verdadeira. Parte da dificuldade é que, pela regra de Bayes, sabemos que, para calcular a probabilidade posterior de que uma hipótese seja verdadeira, é necessário começar com uma probabilidade anterior de que a hipótese seja verdadeira.

A Bayesian seria calcular a probabilidade de que a hipótese é verdadeira, dado os dados (e seu / sua crença anterior).

Essencialmente, ao decidir entre abordagens freqüentista e bayesiana, é possível escolher se a suposta subjetividade da abordagem bayesiana é mais repugnante do que o fato de que a abordagem freqüentista geralmente não fornece uma resposta direta à pergunta que você realmente deseja fazer - mas há espaço para ambos.

No caso de perguntar se uma moeda é justa, ou seja, a probabilidade de uma cabeça é igual à probabilidade de uma cauda, ​​também temos um exemplo de uma hipótese que sabemos que no mundo real é quase certamente falsa desde o início. Os dois lados da moeda são não simétricos, portanto, devemos esperar uma leve assimetria nas probabilidades de cara e coroa, por isso, se a moeda "passar" no teste, significa apenas que não temos observações suficientes para podermos conclua o que já sabemos ser verdade - que a moeda é um pouco tendenciosa!

Dikran Marsupial
fonte
4
Na verdade, a maioria das moedas é realmente muito próxima da justa, e é difícil encontrar uma maneira fisicamente plausível de influenciá-
Ben Bolker
8
Estar muito próximo da feira não é a mesma coisa que ser exatamente justo, que é a hipótese nula. Eu estava apontando uma das idiossincrasias do teste de hipóteses, a saber, que muitas vezes sabemos que a hipótese nula é falsa, mas a usamos de qualquer maneira. Um teste mais prático teria como objetivo detectar se há evidências de que a moeda é significativamente tendenciosa, em vez de evidências significativas de que a moeda é tendenciosa.
Dikran Marsupial
11
Olá, talvez eu esteja enganado, mas pensei em ciência, você nunca pode dizer que a hipótese alternativa é verdadeira, você pode apenas dizer que a hipótese nula é rejeitada e você aceita a hipótese alternativa. Para mim, o valor p reflete a chance de você cometer um erro do tipo 1, ou seja, que você rejeitará a hipótese alternativa e aceitará a hipótese nula (digamos p = 0,05 ou 5% do tempo. É importante distinguir entre o tipo 1 erro e erro tipo 2, e o papel que o poder desempenha na sua modelagem de eventos.
user2238
3
Para testes freqüentistas, eu usaria uma afirmação ainda mais fraca: você "rejeita a hipótese nula" ou "falha em rejeitar a hipótese nula" e não aceita nada. O ponto principal é que (como no caso da moeda tendenciosa) às vezes você sabe a priori que a hipótese nula não é verdadeira, apenas não possui dados suficientes para demonstrar que não é verdadeira; nesse caso, seria estranho "aceitá-lo". Os testes freqüentistas têm taxas de erro tipo I e tipo II, mas isso não significa que eles possam falar da probabilidade de uma hipótese específica ser verdadeira, como no OP.
Dikran Marsupial
2
@ user2238 O valor-p é a possibilidade de um erro do tipo I apenas quando a hipótese nula é "simples" (não composta) e é verdadeira. Por exemplo, em um teste unilateral para determinar se uma moeda é inclinada em direção às caudas ( ), o uso de uma moeda de duas cabeças garante que a chance de um erro do tipo I seja zero, mesmo que o valor p de qualquer amostra finita será diferente de zero. H0:p<0.5
whuber
18

Nada como responder a uma pergunta muito antiga, mas aqui vai ...

Os valores p são testes de hipótese quase válidos. Este é um esforço ligeiramente adaptado, retirado do livro de teoria das probabilidades de Jaynes, em 2003 (experimentos repetitivos: probabilidade e frequência). Suponha que tenhamos uma hipótese nula que desejamos testar. Temos dados e informação prévia . Suponha que exista alguma hipótese não especificada contra a qual testaremos . A razão de chances posterior para contra é então dada por: D I H A H 0 H A H 0H0DIHAH0HAH0

P(HA|DI)P(H0|DI)=P(HA|I)P(H0|I)×P(D|HAI)P(D|H0I)

Agora, o primeiro termo no lado direito é independente dos dados, portanto, os dados podem influenciar o resultado apenas através do segundo termo. Agora, sempre podemos inventar uma hipótese alternativa tal que - uma hipótese de "ajuste perfeito". Assim, podemos usar como uma medida de quão bem os dados podem suportar qualquer hipótese alternativa sobre o nulo. Não há hipótese alternativa que os dados possam suportar sobre em mais de . Também podemos restringir a classe de alternativas, e a mudança é que o é substituído pela probabilidade maximizada (incluindo constantes de normalização) nessa classe. SeHAP(D|HAI)=11P(D|H0I)H01P(D|H0I)1P(D|H0I)começa a ficar muito pequeno, então começamos a duvidar do nulo, porque o número de alternativas entre e aumenta (incluindo algumas com probabilidades anteriores não desprezíveis). Mas isso é quase o que é feito com valores-p, mas com uma exceção: não calculamos a probabilidade de para alguma estatística e alguma região "ruim" da estatística. Calculamos a probabilidade de - a informação que realmente temos, e não um subconjunto dela, .H0HAt(D)>t0t(D)Dt(D)

Outro motivo pelo qual as pessoas usam valores-p é que elas geralmente são um teste de hipótese "adequado", mas podem ser mais fáceis de calcular. Podemos mostrar isso com o exemplo muito simples de testar a média normal com variação conhecida. Temos dados com um modelo assumido (parte das informações anteriores ). Queremos testar . Depois, após um pequeno cálculo:D{x1,,xN}xiNormal(μ,σ2)IH0:μ=μ0

P(D|H0I)=(2πσ2)N2exp(N[s2+(x¯μ0)2]2σ2)

Onde e . Isso mostra que o valor máximo de será alcançado quando . O valor maximizado é:x¯=1Ni=1Nxis2=1Ni=1N(xix¯)2P(D|H0I)μ0=x¯

P(D|HAI)=(2πσ2)N2exp(Ns22σ2)

Então, tomamos a proporção desses dois e obtemos:

P(D|HAI)P(D|H0I)=(2πσ2)N2exp(Ns22σ2)(2πσ2)N2exp(Ns2+N(x¯μ0)22σ2)=exp(z22)

Onde é a "estatística Z". Grandes valores delançam dúvidas sobre a hipótese nula, relativa à hipótese sobre a média normal que é mais fortemente apoiada pelos dados. Também podemos ver que é a única parte dos dados necessários e, portanto, é uma estatística suficiente para o teste.z=Nx¯μ0σ|z|x¯

A abordagem do valor p para esse problema é quase a mesma, mas ao contrário. Começamos com a estatística suficiente e calculamos sua distribuição amostral, que é facilmente mostrada como - onde usei uma letra maiúscula para distinguir a variável aleatória do valor observado . Agora precisamos encontrar uma região que ponha em dúvida a hipótese nula: é fácil ver aquelas regiões em queé grande. Portanto, podemos calcular a probabilidade de quex¯X¯Normal(μ,σ2N)X¯x¯|X¯μ0||X¯μ0||x¯μ0|como uma medida de quão longe os dados observados estão da hipótese nula. Como antes, este é um cálculo simples, e obtemos:

p-value=P(|X¯μ0||x¯μ0||H0)
=1P[N|x¯μ0|σNX¯μ0σN|x¯μ0|σ|H0]
=1P(|z|Z|z||H0)=2[1Φ(|z|)]

Agora, podemos ver que o valor p é uma função decrescente monotônica de, o que significa que obtemos essencialmente a mesma resposta que o teste de hipótese "adequado". Rejeitar quando o valor-p está abaixo de um determinado limite é o mesmo que rejeitar quando as probabilidades posteriores estão acima de um determinado limite. No entanto, observe que, ao fazer o teste adequado, tivemos que definir a classe de alternativas e maximizar a probabilidade sobre essa classe. Para o valor-p, temos que encontrar uma estatística, calcular sua distribuição amostral e avaliar isso no valor observado. Em certo sentido, escolher uma estatística é equivalente a definir a hipótese alternativa que você está considerando.|z|

Embora sejam coisas fáceis de fazer neste exemplo, nem sempre são fáceis em casos mais complicados. Em alguns casos, pode ser mais fácil escolher a estatística correta a ser usada e calcular sua distribuição amostral. Em outros, pode ser mais fácil definir a classe de alternativas e maximizar essa classe.

Este exemplo simples é responsável por uma grande quantidade de testes baseados no valor-p, simplesmente porque muitos testes de hipóteses são da variedade "normal aproximado". Também fornece uma resposta aproximada para o seu problema de moeda (usando a aproximação normal ao binômio). Também mostra que os valores de p neste caso não o desviarão, pelo menos em termos de teste de uma única hipótese. Nesse caso, podemos dizer que um valor-p é uma medida de evidência contra a hipótese nula.

No entanto, os valores-p têm uma escala menos interpretável que o fator bayes - o vínculo entre o valor-p e a "quantidade" de evidência contra o nulo é complexo. Os valores p ficam muito pequenos muito rapidamente - o que os torna difíceis de usar adequadamente. Eles tendem a exagerar o suporte contra o nulo fornecido pelos dados. Se interpretarmos os valores de p como probabilidades contra o nulo - na forma de probabilidades é , quando a evidência real é , e na forma de probabilidades é quando a evidência real é . Ou, em outras palavras, usar um valor-p como uma probabilidade de que o nulo seja falso aqui é equivalente a definir as probabilidades anteriores. Portanto, para o valor p de0.193.870.05196.830.1as chances implícitas anteriores contra o nulo são e, para o valor p de as chances implícitas anteriores contra o nulo são .2.330.052.78

probabilityislogic
fonte
4
+1. "... escolher uma estatística é equivalente a definir a hipótese alternativa que você está considerando" me parece um insight profundo.
whuber
Boa resposta. Vale a pena notar (embora óbvio) que trabalhar com uma classe de alternativas maior que para alguns pequenos pode ser computacionalmente proibitivo, quanto mais se for necessário trabalhar com um número infinito ou incontável de alternativas, o que também pode ocorrer na prática. Uma grande vantagem da abordagem de valor-p é que ela é geralmente (geralmente?) Computacionalmente simples / tratável. kkk
Faheem Mitha
11
@ faheemmitha- você está certo sobre a explosão combinatória, no entanto, isso não ocorre para a abordagem descrita (na verdade, você pode mostrar que a abordagem bayes está definindo efetivamente resíduos). Isso ocorre porque precisamos apenas definir a classe e depois maximizar. Não precisamos avaliar cada alternativa, basta encontrar a melhor.
probabilityislogic
Por que essa resposta é Wiki da Comunidade?
Ameba diz Reinstate Monica
10

Como ex-acadêmico que se mudou para a prática, vou tentar. As pessoas usam valores-p porque são úteis. Você não pode vê-lo em exemplos didáticos de lançamentos de moedas. Claro que eles não são realmente sólidos na base, mas talvez isso não seja tão necessário quanto gostamos de pensar quando pensamos academicamente. No mundo dos dados, estamos cercados por um número literalmente infinito de possíveis coisas a serem analisadas em seguida. Com os cálculos de valor p, tudo o que você precisa é uma idéia do que é desinteressante e uma heurística numérica para que tipo de dados pode ser interessante (bem, além de um modelo de probabilidade para desinteressante). Então, individual ou coletivamente, podemos analisar as coisas de maneira bastante simples, rejeitando a maior parte dos desinteressantes. O valor p nos permite dizer "Se eu não der muita prioridade a pensar nisso de outra forma,

Internet
fonte
10

Sua pergunta é um ótimo exemplo de raciocínio freqüentista e é, na verdade, bastante natural. Eu usei este exemplo em minhas aulas para demonstrar a natureza dos testes de hipóteses. Peço a um voluntário que preveja os resultados de um lançamento de moeda. Não importa qual seja o resultado, registro um palpite "correto". Fazemos isso repetidamente até que a classe fique desconfiada.

Agora, eles têm um modelo nulo na cabeça. Eles assumem que a moeda é justa. Dado que a suposição de 50% está correta quando tudo é justo, toda suposição correta sucessiva suscita mais suspeitas de que o modelo de moeda justa esteja incorreto. Algumas suposições corretas e eles aceitam o papel do acaso. Após 5 ou 10 palpites corretos, a classe sempre começa a suspeitar que a chance de uma moeda justa é baixa. Assim é com a natureza do teste de hipóteses sob o modelo freqüentista.

É uma representação clara e intuitiva da opinião freqüente sobre o teste de hipóteses. É a probabilidade dos dados observados, dado que o nulo é verdadeiro. Na verdade, é bastante natural, como demonstrado por esse experimento fácil. Tomamos como garantido que o modelo é de 50 a 50, mas, como evidências aumentam, eu rejeito esse modelo e suspeito que haja algo mais em jogo.

Portanto, se a probabilidade do que observo for baixa, dado o modelo que assumo (o valor p), tenho alguma confiança em rejeitar meu modelo assumido. Assim, um valor-p é uma medida útil de evidência contra meu modelo assumido, levando em consideração o papel do acaso.

Um aviso: tomei este exercício de um artigo esquecido há muito tempo, pelo que me lembro, era um dos periódicos da ASA.

Brett
fonte
Brett, isso é interessante e um ótimo exemplo. O modelo aqui para mim parece ser que as pessoas esperam que a ordem das caras e rabos ocorra de maneira aleatória. Por exemplo, se eu vejo 5 cabeças seguidas, deduzo que este é um exemplo de um processo não aleatório. De fato, e posso estar errado aqui, a probabilidade de um tooss coss (assumindo a aleatoriedade) é de 50% de cara e de 50% de coroa, e isso é completamente independente do resultado anterior. O ponto é que, se atirou uma moeda de 50000 vezes, e o primeiro 25000 eram chefes, desde que os restantes 25 mil foram caudas, isso ainda reflete uma falta de viés
user2238
@ user2238: Sua última afirmação é verdadeira, mas seria extraordinariamente rara. De fato, ver uma corrida de 5 cabeças em 5 lançamentos aconteceria apenas 3% das vezes se a moeda fosse justa. É sempre possível que o nulo seja verdadeiro e testemunhamos um evento raro.
Brett
6

"Grosso modo, o valor p dá uma probabilidade do resultado observado de um experimento, dada a hipótese (modelo)".

mas não. Nem que seja grosseiro - isso prejudica uma distinção essencial.

O modelo não é especificado, como aponta Raskolnikov, mas vamos assumir que você quer dizer um modelo binomial (lançamentos independentes de moedas, viés de moedas desconhecido fixo). A hipótese é a afirmação de que o parâmetro relevante neste modelo, o viés ou probabilidade de cabeças, é 0,5.

"Tendo essa probabilidade (valor-p), queremos julgar nossa hipótese (qual a probabilidade)"

Podemos de fato fazer esse julgamento, mas um valor-p não vai (e não foi projetado para) nos ajudar a fazê-lo.

"Mas não seria mais natural calcular a probabilidade da hipótese, dado o resultado observado?"

Talvez fosse. Veja toda a discussão de Bayes acima.

"[...] Agora calculamos o valor p, que é igual à probabilidade de obter 14 ou mais caras em 20 jogadas de moeda. OK, agora temos essa probabilidade (0,058) e queremos usar essa probabilidade para julgar o nosso modelo (como é provável que tenhamos uma moeda justa) ".

'de nossa hipótese, assumindo que nosso modelo seja verdadeiro', mas essencialmente: sim. Valores p grandes indicam que o comportamento da moeda é consistente com a hipótese de que é justo. (Eles também são geralmente consistentes com a hipótese de ser falsa, mas tão perto de ser verdadeira que não temos dados suficientes para dizer; veja 'poder estatístico'.)

"Mas se queremos estimar a probabilidade do modelo, por que não calculamos a probabilidade do modelo dado o experimento? Por que calculamos a probabilidade do experimento dado o modelo (valor-p)?"

Na verdade, não calculamos a probabilidade dos resultados experimentais, dada a hipótese nesta configuração. Afinal, a probabilidade é de apenas 0,176 de ver exatamente 10 cabeças quando a hipótese é verdadeira, e esse é o valor mais provável. Esta não é uma quantidade de interesse.

Também é relevante que também não calculemos a probabilidade do modelo. As respostas freqüentistas e bayesianas normalmente assumem que o modelo é verdadeiro e fazem suas inferências sobre seus parâmetros. De fato, nem todos os bayesianos se interessariam, em princípio, pela probabilidade do modelo, ou seja: a probabilidade de que toda a situação fosse bem modelada por uma distribuição binomial. Eles podem fazer muitas verificações de modelo, mas nunca perguntam qual a probabilidade do binômio no espaço de outros modelos possíveis. Os bayesianos que se preocupam com os fatores de Bayes estão interessados, outros nem tanto.

conjugado
fonte
2
Hmm, dois votos negativos. Se a resposta for tão ruim, seria bom ter alguns comentários.
conjugateprior
Gostei desta resposta. Às vezes, as pessoas votam nas respostas porque não é semelhante a um livro e tentam livrar todos os sites de discussões que contêm uma mancha de bom senso ou leigos como descrição.
Vass
Não diminuí o voto, mas acho que um problema é que seu argumento não está claro.
Elvis
6

Uma nota lateral para as outras excelentes respostas: às vezes há momentos em que não sabemos. Por exemplo, até muito recentemente, eles foram totalmente banidos na revista Epidemiology - agora eles são apenas "fortemente desencorajados" e o conselho editorial dedicou uma quantidade enorme de espaço a uma discussão sobre eles aqui: http: //journals.lww. com / epidem / pages / collectiondetails.aspx? TopicalCollectionId = 4

Fomite
fonte
3

Vou apenas adicionar algumas observações; Concordo com você que o uso excessivo de valores- é prejudicial.p

  • Algumas pessoas nas estatísticas aplicadas interpretam mal os valores de , compreendendo-os notavelmente como a probabilidade de que as hipóteses nulas sejam verdadeiras; veja estes documentos: P Valores não são probabilidades de erro e por que realmente não sabemos o que significa "significado estatístico": uma falha educacional importante .p

  • Um outro equívoco comum é que os valores de refletem o tamanho do efeito detectado, ou seu potencial para classificação, quando refletem o tamanho da amostra e o tamanho dos efeitos. Isso leva algumas pessoas a escrever artigos para explicar por que variáveis ​​que foram mostradas "fortemente associadas" a um personagem (ou seja, com valores de p muito pequenos) são classificadores ruins, como este ...p

  • Para concluir, minha opinião é que os valores de são tão amplamente utilizados por causa dos padrões de publicação. Em áreas aplicadas (bioestatizados ...), seu tamanho é algumas vezes a única preocupação de alguns revisores.p

Elvis
fonte
2

Definir probabilidade . Quero dizer. Antes de avançarmos mais, precisamos nos contentar com os termos.

DM

P(M|D)P(M,D)

106/28109

No mundo prático, problemas com condições médicas e o modo como elas funcionam, você pode não conseguir encontrar nenhum desses componentes da distribuição conjunta e não pode condicionar.

P(M,D)p=0.5P(p=0.5)=0B(0.5,0.5)B(1000,1000)0.528109/(28109+106)

Além das dificuldades em falar sobre o que exatamente são os modelos certos, os métodos bayesianos têm maneiras limitadas de lidar com a especificação incorreta de modelos. Se você não gosta de erros gaussianos ou não acredita na independência dos lançamentos de moedas (sua mão se cansa após os primeiros 10.000 lançamentos, não a jogue tão alto quanto as primeiras 1.000 vezes, (o que pode afetar as probabilidades), tudo o que você pode fazer no mundo bayesiano é construir um modelo mais complicado - criar precedentes de quebra para misturas normais, splines de probabilidades ao longo do tempo, o que for. Mas não há análogos diretos para os erros padrão do sanduíche da Huber que reconhecem explicitamente que o modelo pode estar mal especificado e estão preparados para dar conta disso.

<Ω,F,P>ΩFσPAΩAFXt,t[0,1]{Xt>0,t[0,0.5]}{Xt>0,t{t1,t2,,tk}}kσ

StasK
fonte
1

Mas se queremos estimar a probabilidade do modelo, por que não calculamos a probabilidade do modelo, dada a experiência?

Porque nós não sabemos como. Existe um número infinito de modelos possíveis e seu espaço de probabilidade não está definido.

Aqui está um exemplo prático. Digamos que eu queira prever o PIB dos EUA. Recebo as séries temporais e ajustei um modelo. Qual é a probabilidade de esse modelo ser verdadeiro?

Então, vamos realmente ajustar um modelo de passeio aleatório à série do PIB: que é a taxa de crescimento e é um erro aleatório. Meu código abaixo faz exatamente isso e também produz a previsão (vermelho) e compara os dados históricos (azul). μ e t

Δlnyt=μ+et
μet

insira a descrição da imagem aqui

No entanto, quem disse que o PIB é um processo de caminhada aleatória? O que é que foi um processo de tendência? Então, vamos ajustar a tendência: onde é a inclinação da tendência temporal. A previsão usando um modelo de tendência é mostrada no mesmo gráfico (amarelo). c

lnyt=ct+et
c

Agora, como você calcularia a probabilidade de meu modelo de passeio aleatório ser verdadeiro? No MLE, poderíamos calcular a probabilidade de desvio considerando o conjunto de dados, mas essa não é a probabilidade. Segundo, e mais importante, como você calcularia a probabilidade de o modelo andar aleatoriamente com esse desvio, sabendo que também poderia ser um modelo de tendência? Pode ser qualquer outro número de modelos que produzam esse tipo de dinâmica.μ

Aksakal
fonte