Grosso modo, um valor p dá uma probabilidade do resultado observado de um experimento, dada a hipótese (modelo). Tendo essa probabilidade (valor-p), queremos julgar nossa hipótese (qual a probabilidade). Mas não seria mais natural calcular a probabilidade da hipótese, dado o resultado observado?
Em mais detalhes. Nós temos uma moeda. Viramos 20 vezes e obtemos 14 cabeças (14 em 20 é o que chamo de "resultado do experimento"). Agora, nossa hipótese é que a moeda é justa (as probabilidades de cabeça e cauda são iguais entre si). Agora calculamos o valor-p, que é igual à probabilidade de obter 14 ou mais cabeças em 20 jogadas de moeda. OK, agora temos essa probabilidade (0,058) e queremos usá-la para julgar nosso modelo (como é provável que tenhamos uma moeda justa).
Mas se queremos estimar a probabilidade do modelo, por que não calculamos a probabilidade do modelo, dada a experiência? Por que calculamos a probabilidade do experimento dado o modelo (valor-p)?
fonte
Respostas:
O cálculo da probabilidade de que a hipótese esteja correta não se encaixa bem na definição freqüentista de probabilidade (uma frequência de longo prazo), que foi adotada para evitar a suposta subjetividade da definição bayesiana de probabilidade. A verdade de uma hipótese específica não é uma variável aleatória, é verdadeira ou não é e não tem frequência de longo prazo. De fato, é mais natural estar interessado na probabilidade da verdade da hipótese, que é o IMHO por que os valores de p são frequentemente mal interpretados como a probabilidade de que a hipótese nula seja verdadeira. Parte da dificuldade é que, pela regra de Bayes, sabemos que, para calcular a probabilidade posterior de que uma hipótese seja verdadeira, é necessário começar com uma probabilidade anterior de que a hipótese seja verdadeira.
A Bayesian seria calcular a probabilidade de que a hipótese é verdadeira, dado os dados (e seu / sua crença anterior).
Essencialmente, ao decidir entre abordagens freqüentista e bayesiana, é possível escolher se a suposta subjetividade da abordagem bayesiana é mais repugnante do que o fato de que a abordagem freqüentista geralmente não fornece uma resposta direta à pergunta que você realmente deseja fazer - mas há espaço para ambos.
No caso de perguntar se uma moeda é justa, ou seja, a probabilidade de uma cabeça é igual à probabilidade de uma cauda, também temos um exemplo de uma hipótese que sabemos que no mundo real é quase certamente falsa desde o início. Os dois lados da moeda são não simétricos, portanto, devemos esperar uma leve assimetria nas probabilidades de cara e coroa, por isso, se a moeda "passar" no teste, significa apenas que não temos observações suficientes para podermos conclua o que já sabemos ser verdade - que a moeda é um pouco tendenciosa!
fonte
Nada como responder a uma pergunta muito antiga, mas aqui vai ...
Os valores p são testes de hipótese quase válidos. Este é um esforço ligeiramente adaptado, retirado do livro de teoria das probabilidades de Jaynes, em 2003 (experimentos repetitivos: probabilidade e frequência). Suponha que tenhamos uma hipótese nula que desejamos testar. Temos dados e informação prévia . Suponha que exista alguma hipótese não especificada contra a qual testaremos . A razão de chances posterior para contra é então dada por: D I H A H 0 H A H 0H0 D I HA H0 HA H0
Agora, o primeiro termo no lado direito é independente dos dados, portanto, os dados podem influenciar o resultado apenas através do segundo termo. Agora, sempre podemos inventar uma hipótese alternativa tal que - uma hipótese de "ajuste perfeito". Assim, podemos usar como uma medida de quão bem os dados podem suportar qualquer hipótese alternativa sobre o nulo. Não há hipótese alternativa que os dados possam suportar sobre em mais de . Também podemos restringir a classe de alternativas, e a mudança é que o é substituído pela probabilidade maximizada (incluindo constantes de normalização) nessa classe. SeHA P(D|HAI)=1 1P(D|H0I) H0 1P(D|H0I) 1 P(D|H0I) começa a ficar muito pequeno, então começamos a duvidar do nulo, porque o número de alternativas entre e aumenta (incluindo algumas com probabilidades anteriores não desprezíveis). Mas isso é quase o que é feito com valores-p, mas com uma exceção: não calculamos a probabilidade de para alguma estatística e alguma região "ruim" da estatística. Calculamos a probabilidade de - a informação que realmente temos, e não um subconjunto dela, .H0 HA t(D)>t0 t(D) D t(D)
Outro motivo pelo qual as pessoas usam valores-p é que elas geralmente são um teste de hipótese "adequado", mas podem ser mais fáceis de calcular. Podemos mostrar isso com o exemplo muito simples de testar a média normal com variação conhecida. Temos dados com um modelo assumido (parte das informações anteriores ). Queremos testar . Depois, após um pequeno cálculo:D≡{x1,…,xN} xi∼Normal(μ,σ2) I H0:μ=μ0
Onde e . Isso mostra que o valor máximo de será alcançado quando . O valor maximizado é:x¯¯¯=1N∑Ni=1xi s2=1N∑Ni=1(xi−x¯¯¯)2 P(D|H0I) μ0=x¯¯¯
Então, tomamos a proporção desses dois e obtemos:
Onde é a "estatística Z". Grandes valores delançam dúvidas sobre a hipótese nula, relativa à hipótese sobre a média normal que é mais fortemente apoiada pelos dados. Também podemos ver que é a única parte dos dados necessários e, portanto, é uma estatística suficiente para o teste.z=N−−√x¯¯¯−μ0σ |z| x¯¯¯
A abordagem do valor p para esse problema é quase a mesma, mas ao contrário. Começamos com a estatística suficiente e calculamos sua distribuição amostral, que é facilmente mostrada como - onde usei uma letra maiúscula para distinguir a variável aleatória do valor observado . Agora precisamos encontrar uma região que ponha em dúvida a hipótese nula: é fácil ver aquelas regiões em queé grande. Portanto, podemos calcular a probabilidade de quex¯¯¯ X¯¯¯¯∼Normal(μ,σ2N) X¯¯¯¯ x¯¯¯ |X¯¯¯¯−μ0| |X¯¯¯¯−μ0|≥|x¯¯¯−μ0| como uma medida de quão longe os dados observados estão da hipótese nula. Como antes, este é um cálculo simples, e obtemos:
Agora, podemos ver que o valor p é uma função decrescente monotônica de, o que significa que obtemos essencialmente a mesma resposta que o teste de hipótese "adequado". Rejeitar quando o valor-p está abaixo de um determinado limite é o mesmo que rejeitar quando as probabilidades posteriores estão acima de um determinado limite. No entanto, observe que, ao fazer o teste adequado, tivemos que definir a classe de alternativas e maximizar a probabilidade sobre essa classe. Para o valor-p, temos que encontrar uma estatística, calcular sua distribuição amostral e avaliar isso no valor observado. Em certo sentido, escolher uma estatística é equivalente a definir a hipótese alternativa que você está considerando.|z|
Embora sejam coisas fáceis de fazer neste exemplo, nem sempre são fáceis em casos mais complicados. Em alguns casos, pode ser mais fácil escolher a estatística correta a ser usada e calcular sua distribuição amostral. Em outros, pode ser mais fácil definir a classe de alternativas e maximizar essa classe.
Este exemplo simples é responsável por uma grande quantidade de testes baseados no valor-p, simplesmente porque muitos testes de hipóteses são da variedade "normal aproximado". Também fornece uma resposta aproximada para o seu problema de moeda (usando a aproximação normal ao binômio). Também mostra que os valores de p neste caso não o desviarão, pelo menos em termos de teste de uma única hipótese. Nesse caso, podemos dizer que um valor-p é uma medida de evidência contra a hipótese nula.
No entanto, os valores-p têm uma escala menos interpretável que o fator bayes - o vínculo entre o valor-p e a "quantidade" de evidência contra o nulo é complexo. Os valores p ficam muito pequenos muito rapidamente - o que os torna difíceis de usar adequadamente. Eles tendem a exagerar o suporte contra o nulo fornecido pelos dados. Se interpretarmos os valores de p como probabilidades contra o nulo - na forma de probabilidades é , quando a evidência real é , e na forma de probabilidades é quando a evidência real é . Ou, em outras palavras, usar um valor-p como uma probabilidade de que o nulo seja falso aqui é equivalente a definir as probabilidades anteriores. Portanto, para o valor p de0.1 9 3.87 0.05 19 6.83 0.1 as chances implícitas anteriores contra o nulo são e, para o valor p de as chances implícitas anteriores contra o nulo são .2.33 0.05 2.78
fonte
Como ex-acadêmico que se mudou para a prática, vou tentar. As pessoas usam valores-p porque são úteis. Você não pode vê-lo em exemplos didáticos de lançamentos de moedas. Claro que eles não são realmente sólidos na base, mas talvez isso não seja tão necessário quanto gostamos de pensar quando pensamos academicamente. No mundo dos dados, estamos cercados por um número literalmente infinito de possíveis coisas a serem analisadas em seguida. Com os cálculos de valor p, tudo o que você precisa é uma idéia do que é desinteressante e uma heurística numérica para que tipo de dados pode ser interessante (bem, além de um modelo de probabilidade para desinteressante). Então, individual ou coletivamente, podemos analisar as coisas de maneira bastante simples, rejeitando a maior parte dos desinteressantes. O valor p nos permite dizer "Se eu não der muita prioridade a pensar nisso de outra forma,
fonte
Sua pergunta é um ótimo exemplo de raciocínio freqüentista e é, na verdade, bastante natural. Eu usei este exemplo em minhas aulas para demonstrar a natureza dos testes de hipóteses. Peço a um voluntário que preveja os resultados de um lançamento de moeda. Não importa qual seja o resultado, registro um palpite "correto". Fazemos isso repetidamente até que a classe fique desconfiada.
Agora, eles têm um modelo nulo na cabeça. Eles assumem que a moeda é justa. Dado que a suposição de 50% está correta quando tudo é justo, toda suposição correta sucessiva suscita mais suspeitas de que o modelo de moeda justa esteja incorreto. Algumas suposições corretas e eles aceitam o papel do acaso. Após 5 ou 10 palpites corretos, a classe sempre começa a suspeitar que a chance de uma moeda justa é baixa. Assim é com a natureza do teste de hipóteses sob o modelo freqüentista.
É uma representação clara e intuitiva da opinião freqüente sobre o teste de hipóteses. É a probabilidade dos dados observados, dado que o nulo é verdadeiro. Na verdade, é bastante natural, como demonstrado por esse experimento fácil. Tomamos como garantido que o modelo é de 50 a 50, mas, como evidências aumentam, eu rejeito esse modelo e suspeito que haja algo mais em jogo.
Portanto, se a probabilidade do que observo for baixa, dado o modelo que assumo (o valor p), tenho alguma confiança em rejeitar meu modelo assumido. Assim, um valor-p é uma medida útil de evidência contra meu modelo assumido, levando em consideração o papel do acaso.
Um aviso: tomei este exercício de um artigo esquecido há muito tempo, pelo que me lembro, era um dos periódicos da ASA.
fonte
"Grosso modo, o valor p dá uma probabilidade do resultado observado de um experimento, dada a hipótese (modelo)".
mas não. Nem que seja grosseiro - isso prejudica uma distinção essencial.
O modelo não é especificado, como aponta Raskolnikov, mas vamos assumir que você quer dizer um modelo binomial (lançamentos independentes de moedas, viés de moedas desconhecido fixo). A hipótese é a afirmação de que o parâmetro relevante neste modelo, o viés ou probabilidade de cabeças, é 0,5.
"Tendo essa probabilidade (valor-p), queremos julgar nossa hipótese (qual a probabilidade)"
Podemos de fato fazer esse julgamento, mas um valor-p não vai (e não foi projetado para) nos ajudar a fazê-lo.
"Mas não seria mais natural calcular a probabilidade da hipótese, dado o resultado observado?"
Talvez fosse. Veja toda a discussão de Bayes acima.
"[...] Agora calculamos o valor p, que é igual à probabilidade de obter 14 ou mais caras em 20 jogadas de moeda. OK, agora temos essa probabilidade (0,058) e queremos usar essa probabilidade para julgar o nosso modelo (como é provável que tenhamos uma moeda justa) ".
'de nossa hipótese, assumindo que nosso modelo seja verdadeiro', mas essencialmente: sim. Valores p grandes indicam que o comportamento da moeda é consistente com a hipótese de que é justo. (Eles também são geralmente consistentes com a hipótese de ser falsa, mas tão perto de ser verdadeira que não temos dados suficientes para dizer; veja 'poder estatístico'.)
"Mas se queremos estimar a probabilidade do modelo, por que não calculamos a probabilidade do modelo dado o experimento? Por que calculamos a probabilidade do experimento dado o modelo (valor-p)?"
Na verdade, não calculamos a probabilidade dos resultados experimentais, dada a hipótese nesta configuração. Afinal, a probabilidade é de apenas 0,176 de ver exatamente 10 cabeças quando a hipótese é verdadeira, e esse é o valor mais provável. Esta não é uma quantidade de interesse.
Também é relevante que também não calculemos a probabilidade do modelo. As respostas freqüentistas e bayesianas normalmente assumem que o modelo é verdadeiro e fazem suas inferências sobre seus parâmetros. De fato, nem todos os bayesianos se interessariam, em princípio, pela probabilidade do modelo, ou seja: a probabilidade de que toda a situação fosse bem modelada por uma distribuição binomial. Eles podem fazer muitas verificações de modelo, mas nunca perguntam qual a probabilidade do binômio no espaço de outros modelos possíveis. Os bayesianos que se preocupam com os fatores de Bayes estão interessados, outros nem tanto.
fonte
Uma nota lateral para as outras excelentes respostas: às vezes há momentos em que não sabemos. Por exemplo, até muito recentemente, eles foram totalmente banidos na revista Epidemiology - agora eles são apenas "fortemente desencorajados" e o conselho editorial dedicou uma quantidade enorme de espaço a uma discussão sobre eles aqui: http: //journals.lww. com / epidem / pages / collectiondetails.aspx? TopicalCollectionId = 4
fonte
Vou apenas adicionar algumas observações; Concordo com você que o uso excessivo de valores- é prejudicial.p
Algumas pessoas nas estatísticas aplicadas interpretam mal os valores de , compreendendo-os notavelmente como a probabilidade de que as hipóteses nulas sejam verdadeiras; veja estes documentos: P Valores não são probabilidades de erro e por que realmente não sabemos o que significa "significado estatístico": uma falha educacional importante .p
Um outro equívoco comum é que os valores de refletem o tamanho do efeito detectado, ou seu potencial para classificação, quando refletem o tamanho da amostra e o tamanho dos efeitos. Isso leva algumas pessoas a escrever artigos para explicar por que variáveis que foram mostradas "fortemente associadas" a um personagem (ou seja, com valores de p muito pequenos) são classificadores ruins, como este ...p
Para concluir, minha opinião é que os valores de são tão amplamente utilizados por causa dos padrões de publicação. Em áreas aplicadas (bioestatizados ...), seu tamanho é algumas vezes a única preocupação de alguns revisores.p
fonte
Definir probabilidade . Quero dizer. Antes de avançarmos mais, precisamos nos contentar com os termos.
No mundo prático, problemas com condições médicas e o modo como elas funcionam, você pode não conseguir encontrar nenhum desses componentes da distribuição conjunta e não pode condicionar.
Além das dificuldades em falar sobre o que exatamente são os modelos certos, os métodos bayesianos têm maneiras limitadas de lidar com a especificação incorreta de modelos. Se você não gosta de erros gaussianos ou não acredita na independência dos lançamentos de moedas (sua mão se cansa após os primeiros 10.000 lançamentos, não a jogue tão alto quanto as primeiras 1.000 vezes, (o que pode afetar as probabilidades), tudo o que você pode fazer no mundo bayesiano é construir um modelo mais complicado - criar precedentes de quebra para misturas normais, splines de probabilidades ao longo do tempo, o que for. Mas não há análogos diretos para os erros padrão do sanduíche da Huber que reconhecem explicitamente que o modelo pode estar mal especificado e estão preparados para dar conta disso.
fonte
Porque nós não sabemos como. Existe um número infinito de modelos possíveis e seu espaço de probabilidade não está definido.
Aqui está um exemplo prático. Digamos que eu queira prever o PIB dos EUA. Recebo as séries temporais e ajustei um modelo. Qual é a probabilidade de esse modelo ser verdadeiro?
Então, vamos realmente ajustar um modelo de passeio aleatório à série do PIB: que é a taxa de crescimento e é um erro aleatório. Meu código abaixo faz exatamente isso e também produz a previsão (vermelho) e compara os dados históricos (azul). μ e t
No entanto, quem disse que o PIB é um processo de caminhada aleatória? O que é que foi um processo de tendência? Então, vamos ajustar a tendência: onde é a inclinação da tendência temporal. A previsão usando um modelo de tendência é mostrada no mesmo gráfico (amarelo). c
Agora, como você calcularia a probabilidade de meu modelo de passeio aleatório ser verdadeiro? No MLE, poderíamos calcular a probabilidade de desvio considerando o conjunto de dados, mas essa não é a probabilidade. Segundo, e mais importante, como você calcularia a probabilidade de o modelo andar aleatoriamente com esse desvio, sabendo que também poderia ser um modelo de tendência? Pode ser qualquer outro número de modelos que produzam esse tipo de dinâmica.μ
fonte