Se o princípio da probabilidade colidir com a probabilidade freqüentista, descartamos um deles?

19

Em um comentário recentemente publicado aqui, um comentarista apontou para um blog de Larry Wasserman, que aponta (sem nenhuma fonte) que a inferência freqüentista colide com o princípio da probabilidade.

O princípio da verossimilhança simplesmente diz que experimentos que produzem funções semelhantes de verossimilhança devem produzir inferência semelhante.

Duas partes para esta pergunta:

  1. Quais partes, características ou escola de inferência freqüentista violam especificamente o princípio da probabilidade?

  2. Se houver um conflito, temos que descartar um ou outro? Se sim, qual? Por uma questão de discussão, sugerirei que, se tivermos que descartar algo, devemos descartar as partes da inferência freqüentista que se chocam, porque Hacking e Royall me convenceram de que o princípio da probabilidade é axiomático.

Michael Lew
fonte
2
Nunca entendi por que o princípio da probabilidade deve ser um axioma.
Stéphane Laurent
6
Olá, Stéphane. O problema é que Birnbaum provou que a Probabilidade é equivalente a outros dois princípios tão naturais que eles necessariamente deveriam sustentar. Escrevemos uma breve resenha sobre esse resultado. Aqui: ime.usp.br/~pmarques/papers/redux.pdf
Zen
@ Zen Obrigado. À primeira vista, o ponto em que discordo é esta frase escrita abaixo do princípio da condicionalidade: "O que importa é o que realmente aconteceu". Em vez disso, eu deveria dizer "O que importa é o que realmente aconteceu entre os problemas que poderiam ter ocorrido" (desculpe se meu inglês não está correto). Foi o que afirmei em minha discussão com gui11aume: em certo sentido, o princípio da probabilidade afirma que o design do experimento não importa, e não posso concordar com esse ponto.
Stéphane Laurent
1
@ Zen Agora, li com mais atenção o seu artigo. É verdade que é difícil discordar do princípio da condicionalidade e do princípio da invariância.
Stéphane Laurent
1
O LP não é tão popular hoje em dia por razões práticas. Ao adotá-lo religiosamente, você evita o uso de priores dependentes do modelo, como o anterior de Jeffreys, o anterior conjugado e o teste de hipóteses, que podem ser úteis em muitos contextos. Eu acredito que as estatísticas, mesmo que a física , não pode ser axiomatised de uma forma significativa (embora essa discussão pode soar como este ). Mas é importante identificar vantagens e desvantagens de diferentes paradigmas.

Respostas:

12

A parte da abordagem freqüentista que entra em conflito com o princípio da probabilidade é a teoria dos testes estatísticos (e cálculo do valor p). Geralmente é destacado pelo exemplo a seguir.

Suponha que dois freqüentistas desejem estudar uma moeda tendenciosa, que vira 'cabeças' com propabilidade desconhecida . Eles suspeitam que seja tendencioso em direção à cauda, ​​portanto postulam a mesma hipótese nula e a mesma hipótese alternativa .p = 1 / 2 p < 1 / 2pp=1/2p<1/2

O primeiro estatístico vira a moeda até que 'cabeças' apareça, o que acontece 6 vezes. O segundo decide jogar a moeda 6 vezes e obtém apenas uma 'cabeça' no último arremesso.

De acordo com o modelo do primeiro estatístico, o valor-p é calculado da seguinte forma:

p(1-p)5+p(1-p)6+...=p(1-p)511-p=p(1-p)4.

De acordo com o modelo do segundo estatístico, o valor-p é calculado da seguinte forma:

(61)p(1-p)5+(60 0)(1-p)6=(5p+1)(1-p)5.

Substituindo por , o primeiro encontra um valor p igual a , o segundo encontra um valor p igual a .1 / 2 1 / 2 5 = 0,03125 7 / 2 × 1 / 2 5 = 0,109375p1/21/25=0,031257/2×1/25=0.109375

Então, eles obtêm resultados diferentes porque fizeram coisas diferentes, certo? Mas, de acordo com o princípio da probabilidade , eles devem chegar à mesma conclusão. Resumidamente, o princípio da probabilidade indica que probabilidade é tudo o que importa para inferência. Portanto, o embate aqui vem do fato de que ambas as observações têm a mesma probabilidade, proporcional a (a probabilidade é determinada até uma constante de proporcionalidade).p(1-p)5

Até onde eu sei, a resposta para sua segunda pergunta é mais uma opinião debatida. Eu, pessoalmente, tento evitar testes e computação de valores-p pelo motivo acima e por outros explicados nesta postagem do blog .

EDIT: Agora que penso nisso, as estimativas de por intervalos de confiança também diferem. Na verdade, se os modelos são diferentes, o IC difere de acordo com a construção.p

gui11aume
fonte
1
Tenho a impressão de que o princípio da probabilidade é obviamente violado nas estatísticas freqüentistas (teste de hipóteses, intervalos de confiança) porque levamos em consideração a probabilidade de cada resultado possível, não apenas a probabilidade baseada no resultado real. Certo ?
Stéphane Laurent
@ Stéphane Laurent sim, é também assim que eu entendo. James Berger tem uma bela citação em Statistical Decision Theory e Bayesian Analysis , que diz que o Frequentist às vezes rejeita a hipótese por causa de dados que nunca foram observados (soa melhor, mas não me lembro).
gui11aume
Obrigado, gui11aume. Estou certo de interpretar isso como um exemplo em que o "significado" dos valores-P varia com a intenção do pesquisador? Suponho que esse seja o caso quando os valores P são interpretados como uma espécie de taxa de erro falso positivo de limite, porque eles teriam que ser distribuídos uniformemente sob a hipótese nula? Isso é necessário com a abordagem de Fisher, onde os valores P são apresentados como índices da força da evidência?
Michael Lew
4
(+1) Esse tipo de discrepância geralmente aparece quando uma regra de parada está envolvida em um dos modelos.
1
@ Scortchi Na verdade, eu me enganei ao pensar que um dos valores P aponta para a função de probabilidade correta e o outro não: ambos apontam para a mesma função de probabilidade que apresenta as evidências relevantes para a probabilidade de cabeças. Você deve ignorar as duas últimas frases do meu comentário anterior. (Eu não pode editá-lo, posso?)
Michael Lew
4

Gosto do exemplo de @ gui11aume (+1), mas pode causar uma impressão de que a diferença nos dois valores de surge apenas devido às diferentes regras de parada usadas pelos dois experimentadores.p

Na verdade, acredito que é um fenômeno muito mais geral. Considere o segundo experimentador na resposta de @ gui11aume: aquele que joga uma moeda seis vezes e observa as cabeças apenas no último arremesso. Os resultados são assim: qual é o valor ? A abordagem usual seria calcular a probabilidade de uma moeda justa resultar em uma ou menos cabeças. Existem possibilidades do total de com uma ou menos cabeças, portanto, . .p 7 64 p = 7 / 64 0,109

TTTTTH,
p764p=7/640,109

Mas por que não fazer outra estatística de teste ? Por exemplo, neste experimento, observamos cinco caudas seguidas. Vamos considerar o comprimento da sequência mais longa de caudas como estatística de teste. Existem possibilidades com cinco ou seis caudas seguidas, portanto .3p=3/640,047

Portanto, se neste caso a taxa de erro foi fixada em , a escolha da estatística de teste pode facilmente tornar os resultados significativos ou não, e isso não tem nada a ver com as regras de parada em si .α=0,05


Parte especulativa

Agora, filosoficamente, eu diria que a escolha freqüente da estatística do teste é, em algum sentido vago, semelhante à escolha bayesiana do anterior. Escolhemos uma ou outra estatística de teste porque acreditamos que a moeda injusta se comportaria dessa ou daquela maneira específica (e queremos ter poder para detectar esse comportamento). Não é semelhante a colocar antes os tipos de moedas?

Nesse caso, o princípio da probabilidade de dizer que toda a evidência tem probabilidade não entra em conflito com os valores- , porque o valor- não é apenas a "quantidade de evidência". É "uma medida de surpresa", mas algo só pode ser uma medida de surpresa se explicar o que nos surpreenderia! O valor tenta combinar em uma quantidade escalar a evidência e algum tipo de expectativa anterior (conforme representado na escolha da estatística do teste). Nesse caso, não deve ser comparado com a probabilidade em si, mas talvez com a posterior?ppp

Eu ficaria muito interessado em ouvir algumas opiniões sobre essa parte especulativa, aqui ou no chat.


Atualizar após discussão com @MichaelLew

ppp sejam diferentes.

Ainda tenho que pensar no que isso significa para minha parte "especulativa" acima.

ameba diz Restabelecer Monica
fonte
Pensamentos interessantes. Sim, concordo que não precisa haver conflito entre os valores LP e P, desde que os valores P não sejam interpretados como evidência da mesma maneira que a função de probabilidade. A função de verossimilhança contém as evidências relevantes para o parâmetro de interesse, conforme o modelo estatístico . Quando você altera a estatística de teste, altera o modelo; portanto, a função de probabilidade do seu modelo alternativo (bem, pode) diferir da função de probabilidade do original.
Michael Lew
p
Além disso, encontrei essa pergunta porque estava relendo seu artigo "Para P ou não para P" (e pesquisei no Google "princípio de probabilidade"). Geralmente gosto do artigo, mas fiquei completamente confuso com a seção 4.4. Você escreve que os valores-p não devem ser "ajustados" levando em consideração as regras de parada; mas não vejo nenhum ajuste nas fórmulas 5-6. Quais seriam os valores de p "não ajustados"? Você quer dizer que um deles está ajustado e outro não? Se sim, qual e por que não vice-versa?
Ameba diz Reinstate Monica
O modelo estatístico é frequentemente ignorado ou tacitamente assumido como invariável. No entanto, para as moedas, inclui uma probabilidade desconhecida fixa de cara, uma seleção aleatória de observações e, para a estatística de teste de cabeça fora dos ensaios, a distribuição binomial de possíveis resultados. Não sei qual é a distribuição dos resultados para a estatística de teste de caudas em linha, mas suspeito que seja diferente. Mesmo se for o mesmo, o modelo que possui sua estatística de teste não é o mesmo que o original e, portanto, a função de probabilidade pode ser diferente, mesmo que contenha todas as evidências.
Michael Lew
Estou quase terminando uma reformulação completa desse papel. É relevante para esta discussão, mas ainda não está pronto para envio. (Este bate-papo?)
Michael Lew