Probabilidade de que a hipótese nula seja verdadeira

14

Portanto, essa pode ser uma pergunta comum, mas nunca encontrei uma resposta satisfatória.

Como você determina a probabilidade de a hipótese nula ser verdadeira (ou falsa)?

Digamos que você dê aos alunos duas versões diferentes de um teste e queira ver se as versões eram equivalentes. Você realiza um teste t e ele fornece um valor-p de 0,02. Que bom valor p! Isso deve significar que é improvável que os testes sejam equivalentes, certo? Não. Infelizmente, parece que P (resultados | nulo) não informa P (nulo | resultados). O normal é rejeitar a hipótese nula quando encontramos um valor p baixo, mas como sabemos que não estamos rejeitando uma hipótese nula que provavelmente é verdadeira? Para dar um exemplo bobo, posso projetar um teste para o ebola com uma taxa de falsos positivos de 0,02: coloque 50 bolas em um balde e escreva “ebola” em um. Se eu testar alguém com isso e ele pegar a bola “ebola”, o valor de p (P (pegar a bola | eles não têm ebola)) é 0,02,

Coisas que eu considerei até agora:

  1. Assumindo P (nulo | resultados) ~ = P (resultados | nulo) - claramente falso para algumas aplicações importantes.
  2. Aceite ou rejeite a hipótese sem conhecer P (nulo | resultados) - Por que estamos aceitando ou rejeitando-os então? Não é o ponto principal que rejeitamos o que pensamos ser provavelmente falso e aceitamos o que é provavelmente verdadeiro?
  3. Use o Teorema de Bayes - Mas como você consegue seus priores? Você não acaba no mesmo lugar tentando determiná-los experimentalmente? E escolhê-los a priori parece muito arbitrário.
  4. Encontrei uma pergunta muito semelhante aqui: stats.stackexchange.com/questions/231580/. A única resposta aqui parece dizer basicamente que não faz sentido perguntar sobre a probabilidade de uma hipótese nula ser verdadeira, já que essa é uma pergunta bayesiana. Talvez eu seja um bayesiano de coração, mas não consigo imaginar não fazer essa pergunta. De fato, parece que o mal-entendido mais comum dos valores-p é que eles são a probabilidade de uma verdadeira hipótese nula. Se você realmente não pode fazer essa pergunta como freqüentador, minha pergunta principal é # 3: como você consegue seus prévios sem ficar preso em um loop?

Edit: Obrigado por todas as respostas atenciosas. Quero abordar alguns temas comuns.

  1. Definição de probabilidade: Tenho certeza de que há muita literatura sobre isso, mas minha concepção ingênua é algo como "a crença de que um ser perfeitamente racional daria a informação" ou "as chances de apostas que maximizariam o lucro se a situação foi repetido e as incógnitas foram autorizadas a variar ".
  2. Podemos conhecer P (H0 | resultados)? Certamente, essa parece ser uma pergunta difícil. Acredito, porém, que toda probabilidade é teoricamente conhecível, uma vez que a probabilidade é sempre condicional à informação fornecida. Todo evento irá acontecer ou não, portanto, a probabilidade não existe com informações completas. Ele existe apenas quando há informações insuficientes, portanto deve ser conhecido. Por exemplo, se me disserem que alguém tem uma moeda e perguntarem a probabilidade de cara, eu diria 50%. Pode acontecer que a moeda tenha um peso de 70% para as cabeças, mas eu não recebi essas informações, então a probabilidade foi de 50% para as informações que eu tinha, assim como, mesmo que caia sobre as caudas, a probabilidade foi de 70% cabeças quando eu aprendi isso. Como a probabilidade é sempre condicional a um conjunto de dados (insuficientes),
    Edit: "Always" pode ser um pouco forte demais. Pode haver algumas questões filosóficas para as quais não podemos determinar a probabilidade. Ainda assim, em situações do mundo real, embora possamos "quase nunca" ter certeza absoluta, deve "quase sempre" haver uma melhor estimativa.
Kalev Maricq
fonte
1
Se sua 'hipótese nula' é algo como , ou seja, que alguma diferença é zero, rejeitá-la significa que você encontrou evidências suficientemente fortes de que H A : θ = 0 . Você poderia preferir uma hipótese nula como H 0 : | q | Δ , ou seja, que alguma diferença seja pelo menos tão grande quanto Δ (onde Δ é o que o pesquisador considera a menor diferença com a qual se preocupam), e rejeitar significa que você encontrou H A : | q | <H0 0:θ=0 0HUMA:θ=0 0H0 0:|θ|ΔΔΔ (ie - Δ < θ < Δ ). Veja os testes de equivalênciastats.stackexchange.com/tags/tost/infoHUMA:|θ|<Δ-Δ<θ<Δ
Alexis
O poder de um experimento (e do teste estatístico que analisa os resultados do experimento) é a probabilidade de que, se houvesse um efeito de um determinado tamanho ou maior, que o experimento o detectasse em um determinado limite de significância. statisticsdonewrong.com/power.html
Bennett Brown
O seu exemplo de moeda é bom. Isso mostra que você nunca pode conhecer P (H0 | resultados) se você apenas conhece os resultados e não faz outras suposições . Você conhece a probabilidade de cara em um dado arremesso "assumindo" uma certa justiça da moeda? Sim. (mas isso é hipotético, dadas as premissas e você nunca saberá se suas premissas são verdadeiras). Você conhece a probabilidade de cabeças em um determinado arremesso enquanto conhece vários resultados anteriores. Não! e não importa o tamanho do número de resultados anteriores que você conhece. Você não pode saber exatamente as chances de probabilidade no próximo arremesso.
Sextus Empiricus

Respostas:

13

Você certamente identificou um problema importante e o bayesianismo é uma tentativa de resolvê-lo. Você pode escolher um antes não informativo, se desejar. Vou deixar que outras pessoas digam mais sobre a abordagem de Bayes.

No entanto, na grande maioria das circunstâncias, você sabeo nulo é falso na população, você simplesmente não sabe o tamanho do efeito. Por exemplo, se você formular uma hipótese totalmente ridícula - por exemplo, que o peso de uma pessoa está relacionado ao fato de o SSN ser ímpar ou par - e você de alguma forma conseguir obter informações precisas de toda a população, os dois meios não serão exatamente iguais. Eles (provavelmente) diferem em uma quantidade insignificante, mas não correspondem exatamente. 'Se você seguir esse caminho, enfatizará os valores de p e os testes de significância e passará mais tempo analisando a estimativa do tamanho do efeito e sua precisão. Portanto, se você tiver uma amostra muito grande, poderá achar que pessoas com SSN ímpares pesam 0,001 libras a mais do que pessoas com SSN par e que o erro padrão para essa estimativa é 0,000001 libras, portanto, p <0,05, mas ninguém deve se importar.

Peter Flom - Restabelece Monica
fonte
1
n
1
Bom argumento sobre o tamanho do efeito. Existe um análogo a situações como o teste de uma doença, onde a pergunta é de natureza booleana?
Kalev Maricq 28/09
1
FWIW, estou perfeitamente disposto a acreditar que não há relação entre o peso de uma pessoa e se o seu SSN é ímpar ou par. Em um estudo observacional, essas variáveis ​​serão correlacionadas com algumas outras variáveis, etc., de modo que exista uma associação marginal não-0. Eu acho que o ponto válido é que, para a maioria das coisas que os pesquisadores investem seu tempo para investigar, há alguma razão decente para suspeitar que existe um efeito real não-0.
gung - Restabelece Monica
1
@gung, você pode acreditar no que quiser, mas definitivamente existe uma relação diferente de zero entre peso e SSN. Nós sabemos algo mais sobre o relacionamento além de sua existência e que provavelmente é pequeno.
Emory 28/09
1
Eu sei que o peso é uma variável contínua. Embora possamos gravá-lo como um número inteiro de quilogramas. Seu comentário foi sobre um estudo observacional (tirando inferências sobre uma população com base em uma amostra). Como meu estudo é financiado por dólares hipotéticos, é um estudo populacional usando escalas de precisão infinita - sem necessidade de inferência estatística.
Emory 28/09
3

Para responder a essa pergunta, você precisa definir probabilidade. Isso ocorre porque a hipótese nula é verdadeira (exceto que quase nunca é quando você considera hipóteses nulas de ponto) ou falsa. Uma definição é que minha probabilidade descreve minha crença pessoal sobre a probabilidade de meus dados surgirem dessa hipótese, em comparação com a probabilidade de meus dados surgirem de outras hipóteses que estou considerando. Se você começar a partir dessa estrutura, seu prior é apenas sua crença, com base em todas as informações anteriores, mas excluindo os dados disponíveis.

jaradniemi
fonte
Bom ponto. Penso que a minha ideia de probabilidade é algo como "a crença perfeitamente racional" em vez da minha crença pessoal. Eu editei minha pergunta para abordar seus pontos.
Kalev Maricq 28/09
2

A idéia principal é que, falando livremente, você possa mostrar empiricamente que algo é falso (apenas forneça um contraexemplo), mas não pode mostrar que algo é definitivamente verdadeiro (você precisaria testar "tudo" para mostrar que não há contraexemplos).

A falsificação é a base do método científico: você assume que uma teoria está correta e compara suas previsões com o que observa no mundo real (por exemplo, acreditava-se que a teoria gravitacional de Netwon era "verdadeira", até que se descobriu que sim. não funciona muito bem em circunstâncias extremas).

Isso também é o que acontece no teste de hipóteses: quando P (resultados | nulo) é baixo, os dados estão contradizendo a teoria (ou você não teve sorte), por isso faz sentido rejeitar a hipótese nula. De fato, suponha que nulo seja verdadeiro, então P (nulo) = P (nulo | resultados) = 1; portanto, a única maneira pela qual P (resultados | nulos) é baixa é que P (resultados) é baixa (azar).

Por outro lado, quando P (resultados | nulo) é alto, quem sabe. Talvez nulo seja falso, mas P (resultado) seja alto; nesse caso, você não pode realmente fazer nada, além de projetar um experimento melhor.

Deixe-me reiterar: você só pode mostrar que a hipótese nula é (provavelmente) falsa. Então, eu diria que a resposta é metade do seu segundo ponto: você não precisa saber P (nulo | resultados) quando P (resultados | nulo) estiver baixo para rejeitar nulo, mas você não pode dizer que nulo é verdadeiro P (resultados | nulo) é alto.

É também por isso que a reprodutibilidade é muito importante: seria suspeito ter azar cinco vezes em cinco.

Urso preto
fonte
H0 0:HumaeuternumatEuve:
Eu concordo com Martijn. Se você puder me dizer como determinar a probabilidade de a hipótese nula ser falsa, consideraria uma resposta bem-sucedida à minha pergunta.
Kalev Maricq 28/09
μ1000P(μ1000=3,50)
2

-------------------------------------------------- ---------------------

(editar: acho que seria útil colocar uma versão do meu comentário nesta pergunta no topo desta resposta, pois é muito mais curto)

A computação não simétrica de p (a | b) ocorre quando é vista como uma relação causal, como p (resultado | hipótese). Esse cálculo não funciona nas duas direções: uma hipótese causa uma distribuição de resultados possíveis, mas um resultado não causa uma distribuição de hipóteses.

P (resultado | hipótese) é um valor teórico baseado na hipótese da relação de causalidade -> resultado.

Se p (a | b) expressa uma correlação ou frequência observada (não necessariamente uma relação causal), torna-se simétrica. Por exemplo, se escrevermos o número de jogos que uma equipe esportiva vence / perde e o número de partidas da equipe esportiva é menor ou igual a / mais de 2 gols em uma tabela de contingência. Então P (vitória | pontuação> 2) e P (pontuação> 2 | vitória) são objetos experimentais / observacionais (não teóricos) semelhantes.

-------------------------------------------------- -------------------

Muito simplista

A expressão P (resultado | hipótese) parece tão simples que faz pensar facilmente que você pode simplesmente reverter os termos. No entanto, 'resultado' é uma variável estocástica, com distribuição de probabilidade (dada a hipótese). E 'hipótese' não é (tipicamente) uma variável estocástica. Se fizermos 'hipótese' uma variável estocástica, isso implica uma distribuição de probabilidade de diferentes hipóteses possíveis, da mesma maneira que temos uma distribuição de probabilidade de resultados diferentes. (mas os resultados não nos dão essa distribuição probabilística da hipótese e apenas modificam a distribuição, por meio do teorema de Bayes)


Um exemplo

Digamos que você tenha um vaso com bolinhas vermelhas / azuis em uma proporção de 50/50 a partir da qual você extrai 10 bolinhas de gude. Em seguida, você pode expressar facilmente algo como P (resultado | experimento em vaso), mas faz pouco sentido expressar P (experimento em vaso | resultado). O resultado não é (por si só) a distribuição de probabilidade de diferentes experiências possíveis em vasos.

Se você tiver vários tipos possíveis de experiências com vasos, nesse caso, é possível usar expressar algo como P (tipo de experiência com vasos) e usar a regra Bayes para obter um P (tipo de experiência com vasos | resultado), porque agora o tipo de experimento em vaso é uma variável estocástica. (nota: mais precisamente, é P (tipo de experimento com vaso | resultado e distribuição do tipo de experimento com vaso))

Ainda assim, esse P (tipo de experimento em vaso | resultado) requer uma (meta) hipótese sobre uma determinada distribuição inicial P (tipo de experimento em vaso).


Intuição

talvez a expressão abaixo ajude a entender a única direção

X) Podemos expressar a probabilidade de X, dada uma hipótese sobre X.

portanto

1) Podemos expressar a probabilidade de resultados, dada uma hipótese sobre os resultados.

e

2) Podemos expressar a probabilidade de uma hipótese, dada uma (meta) hipótese sobre essas hipóteses.

É a regra de Bayes que nos permite expressar um inverso de (1), mas precisamos de (2) para isso, a hipótese precisa ser uma variável estocástica.


Rejeição como solução

Portanto, não podemos obter uma probabilidade absoluta para uma hipótese, dados os resultados. Isso é um fato da vida, tentar combater esse fato parece ser a origem de não encontrar uma resposta satisfatória. A solução para encontrar uma resposta satisfatória é: aceitar que você não pode obter uma probabilidade (absoluta) de uma hipótese.


Frequentists

Da mesma maneira que não podemos aceitar uma hipótese, não devemos (automaticamente) rejeitar a hipótese quando P (resultado | hipótese) estiver próximo de zero. Significa apenas que há evidências que apóiam a mudança de nossas crenças e depende também de P (resultado) e P (hipótese) de como devemos expressar nossas novas crenças.

Quando os freqüentadores têm algum esquema de rejeição, tudo bem. O que eles expressam não é se uma hipótese é verdadeira ou falsa, ou a probabilidade de tais casos. Eles não são capazes de fazer isso (sem antecedentes). O que eles expressam é algo sobre a taxa de falhas (confiança) de seu método (considerando que certas suposições são verdadeiras).


Onisciente

Uma maneira de resolver tudo isso é eliminar o conceito de probabilidade. Se você observar toda a população de 100 bolinhas de gude no vaso, poderá expressar certas afirmações sobre uma hipótese. Portanto, se você se torna onisciente e o conceito de probabilidade é irrelevante, pode afirmar se uma hipótese é verdadeira ou não (embora a probabilidade também esteja fora da equação)

Sextus Empiricus
fonte
Seu exemplo de vaso faz sentido. No entanto, na vida real, quase nunca sabemos quantas bolas de cada cor estão no vaso. Eu sempre me encontro com uma pergunta mais como "Existem mais bolinhas vermelhas do que azuis" e meus dados são que eu desenhei 4 bolinhas vermelhas e 1 mármore azul do vaso. Agora, posso fazer suposições como "provavelmente há ~ 100 bolinhas de gude e cada mármore é vermelho ou azul com 50% de probabilidade", mas na vida real, muitas vezes me vejo sem saber como obter arbitrariamente e não circularmente esses priores.
Kalev Maricq 28/09
Essa é mais uma questão epistemológica do que um problema sobre probabilidade. Uma expressão como P (resultado | hipótese) é similarmente "falsa", quero dizer, é uma expressão hipotética. Você pode expressar a probabilidade de um resultado, dada uma certa crença hipotética sobre a "realidade". Do mesmo modo que uma probabilidade para um resultado experimental é hipotética, uma expressão para a probabilidade de alguma teoria (com ou sem alguma observação de um resultado) requer uma certa crença hipotética sobre a "realidade". Sim, os anteriores são um tanto arbitrários. Mas assim é uma hipótese.
Sextus Empiricus 28/09
Falando sobre as probabilidades. Observe que a regra de Bayes é sobre duas variáveis ​​estocásticas: P (a | b) P (b) = P (b | a) P (a). Você pode relacionar as probabilidades condicionais. Se um desses P (b | a) é um relacionamento causal , como em 'a teoria leva à distribuição dos resultados', você pode calcular exatamente. Tal caso é apenas devido à causalidade (1direcional). A hipótese permite saber (hipotético) tudo o que você precisa, as bolinhas de gude no vaso. O contrário, não funciona. Um resultado experimental 4 vermelho vs 1 azul não causa a distribuição de probabilidade de bolinhas de gude no vaso.
Sextus Empiricus