Por que o Jeffreys prior é útil?

61

Entendo que o prior de Jeffreys é invariável sob uma parametrização. No entanto, o que não entendo é por que essa propriedade é desejada.

Por que você não gostaria que o anterior fosse alterado sob uma alteração de variáveis?

bayesian prior tskuzzy
fonte

3

De possível interesse: Por que os anteriores de Jeffreys são considerados não informativos? .

30

Deixe-me completar a resposta do Zen. Não gosto muito da noção de "representar a ignorância". O importante não é o Jeffreys anterior, mas o Jeffreys posterior . Este posterior visa refletir o melhor possível as informações sobre os parâmetros trazidos pelos dados. A propriedade invariância é naturalmente necessária para os dois pontos a seguir. Considere, por exemplo, o modelo binomial com parâmetro de proporção desconhecida e parâmetro de chances . $\theta$ $\psi=\frac{\theta}{1-\theta}$

O Jeffreys posterior em reflete da melhor maneira possível as informações sobre trazidas pelos dados. Existe uma correspondência individual entre e . Então, transformar o Jeffreys posterior em em posterior em (através da fórmula usual de mudança de variáveis) deve produzir uma distribuição que reflita o melhor possível as informações sobre . Portanto, essa distribuição deve ser a de Jeffreys posterior sobre . Esta é a propriedade invariância. $\theta$ $\theta$ $\theta$ $\psi$ $\theta$ $\psi$ $\psi$ $\psi$
Um ponto importante ao tirar conclusões de uma análise estatística é a comunicação científica . Imagine que você entregue o Jeffreys on a um colega científico. Mas ele / ela está interessado em vez de . Então isso não é um problema com a propriedade invariância: ele apenas precisa aplicar a fórmula de mudança de variáveis. $\theta$ $\psi$ $\theta$

Stéphane Laurent
fonte

Ah, isso esclarece um pouco as coisas. Mas existe uma boa razão intuitiva para que o posterior para o parâmetro de probabilidades deva ser o mesmo que o posterior para o parâmetro de proporção? Isso me parece pouco natural.

tskuzzy

Não é o mesmo ! Um é induzido pelo outro pela fórmula de mudança de variáveis. Há uma correspondência individual entre os dois parâmetros. Então a distribuição posterior em um desses parâmetros deve induzir a distribuição posterior no outro.

Stéphane Laurent

2

(+1) Stéphane. O OP parece ainda estar confuso quando ele diz "... deve ser o mesmo ...". Os dois posteriores não são "iguais", o que acontece é que, por exemplo, no exemplo de Stéphane, você tem que ; se você não tiver esse tipo de consistência usando anteriores padrões (calculados), eles serão um pouco malucos.

P {1 / 3 \leq θ \leq 2 / 3 ∣ X = x} = P {1 / 2 \leq ψ \leq 2 ∣ X = x}

$P\{1/3\leq\theta\leq 2/3\mid X=x\}=P\{1/2\leq\psi\leq 2\mid X=x\}$

Zen

11

Eu acho que o que está faltando neste post é que, quando há muita informação nos dados sobre um parâmetro, o anterior específico usado realmente não importa. Por exemplo, uma proporção binomial, seja de uniforme, jeffreys ou haldane anterior, faz muito pouca diferença, a menos que a posterior seja muito ampla. Nesse caso, é um pouco um argumento acadêmico sobre qual prior é "certo", porque nenhuma conclusão significativa pode ser tirada de qualquer maneira. O valor real de um prior não informativo está em várias dimensões, mas esse problema não foi resolvido - Jeffreys prior é ruim aqui.

probabilityislogic

3

Essa teoria é incompleta e depende da ordem dos parâmetros, da escolha da região compacta e da função de probabilidade. Portanto, não obedece ao princípio da probabilidade, por exemplo. Além disso, é difícil aplicar a dados não independentes. Além disso, a teoria de Bernardo está completa apenas para problemas de parâmetros 1-d. É provavelmente o melhor método disponível atualmente. Um bom concorrente é a abordagem do grupo de transformação de Jaynes.

probabilityislogic

41

Suponha que você e um amigo estejam analisando o mesmo conjunto de dados usando um modelo normal. Você adota a parametrização usual do modelo normal usando a média e a variação como parâmetros, mas seu amigo prefere parametrizar o modelo normal com o coeficiente de variação e a precisão como parâmetros (o que é perfeitamente "legal"). Se vocês usarem os antecedentes de Jeffreys, sua distribuição posterior será a distribuição posterior de seu amigo, transformada adequadamente da parametrização dele para a sua. É nesse sentido que o prior de Jeffreys é "invariável"

(A propósito, "invariante" é uma palavra horrível; o que realmente queremos dizer é que é "covariante" no mesmo sentido de cálculo de tensores / geometria diferencial, mas, é claro, esse termo já tem um significado probabilístico bem estabelecido, então não podemos usá-lo.)

Por que essa propriedade de consistência é desejada? Porque, se o prior de Jeffreys tem alguma chance de representar ignorância sobre o valor dos parâmetros em um sentido absoluto (na verdade, isso não ocorre, mas por outras razões não relacionadas à "invariância") e não à ignorância em relação a uma parametrização específica do modelo, deve ser o caso em que, independentemente de quais parametrizações escolhemos arbitrariamente começar, nossos posteriores devem "corresponder" após a transformação.

O próprio Jeffreys violou essa propriedade de "invariância" rotineiramente ao construir seus anteriores.

Este artigo tem algumas discussões interessantes sobre esse assunto e assuntos relacionados.

zen
fonte

11

+1: boa resposta. Mas, por que o prior de Jeffreys não representa ignorância sobre o valor dos parâmetros?

Neil G

4

Porque nem é uma distribuição. É paradoxal afirmar que uma distribuição reflete ignorância. Uma distribuição sempre reflete informações.

Stéphane Laurent

2

Outra referência: projecteuclid.org/…

Stéphane Laurent

@ StéphaneLaurent: É preciso ter alguma crença mesmo em um estado de total ignorância. Qualquer que seja o seu posterior, menos a probabilidade induzida pelos seus dados é a crença de que você está assumindo nesse estado de ignorância. O princípio intuitivo que deve ser respeitado ao decidir essa crença é que ela deve ser invariável sob alterações de rótulos (incluindo reparametrização). Não tenho certeza, mas acho que apenas esse princípio (em todas as suas possíveis interpretações - entropia máxima, reparametrização invariável etc.) sempre decide a crença.

Neil G

Portanto, quando se diz "uma distribuição reflete ignorância", significa que a distribuição está de acordo com esse princípio.

Neil G

12

Para acrescentar algumas citações à grande resposta de Zen: Segundo Jaynes, o prior de Jeffreys é um exemplo do princípio dos grupos de transformação, que resulta do princípio da indiferença:

A essência do princípio é justa: (1) reconhecemos que uma atribuição de probabilidade é um meio de descrever um certo estado de conhecimento. (2) Se a evidência disponível não nos dá razão para considerar a proposição mais ou menos provável que , a única maneira honesta de descrever esse estado de conhecimento é atribuir a eles probabilidades iguais: . Qualquer outro procedimento seria inconsistente no sentido de que, por um mero intercâmbio de rótulos , poderíamos gerar um novo problema no qual nosso estado de conhecimento é o mesmo, mas no qual estamos atribuindo probabilidades diferentes ... $A_1$ $A_2$ $p_1=p_2$ $(1, 2)$

Agora, para responder à sua pergunta: "Por que você não gostaria que o anterior fosse alterado sob uma alteração de variáveis?"

Segundo Jaynes, a parametrização é outro tipo de rótulo arbitrário, e não se deve ser capaz de “por um simples intercâmbio de rótulos gerar um novo problema no qual nosso estado de conhecimento é o mesmo, mas no qual estamos atribuindo probabilidades diferentes. "

Neil G
fonte

2

Jaynes parece um pouco místico para mim.

Stéphane Laurent

@ StéphaneLaurent: Talvez eu tenha me convertido facilmente demais! Mas achei isso muito convincente: ET Jaynes, "Onde estamos na Entropia Máxima?", Em The Maximum Entropy Formalism, R. Levine e M. Tribus, Eds. Cambridge, MA, EUA: The MIT Press, 1979, pp. 15-118.

9114 Neil G

2

Xian recebeu um e-mail elogiando Jaynes: ceremade.dauphine.fr/~xian/critic.html É uma pena que você não leia francês, esse e-mail é assustador e engraçado. O escritor parece ter enlouquecido pensando demais em estatísticas bayesianas;)

Stéphane Laurent

11

@ StéphaneLaurent: Lendo agora. Isso é absolutamente correto: "si vous affirmez na página 508" a repetibilidade da maioria das experiências "à quoi bon ensuite" à procura de procedimentos feministas ótimos "na página 512? Se você encontrar problemas na peuvent, não procure outros procedimentos, comente "choix bayésien", qual é o seu paradigma para todos os problemas infecciosos, além do que você pensa, sobre o que é uma reconciliação com o principal (p. 517-518)? pour toute qu'une probabilité n'est jamais une fréquence! "

Neil G

11

Além disso: "O Princípio da Máxima Entropia é o mais absoluto interesse público, desde que seja necessário e suficiente para responder a casos de casos e objetos que considere equivalentes a obter em casos com significado significativo de probabilidade a priori. Quand on sait qu'il permet ensuite unifier Théorie de l'Information, Mecanique Statistique, Thermodynamique ... "também descreve minha posição. Contudo, diferentemente do escritor, não tenho interesse em dedicar horas a convencer os outros a aceitar o que considero tão natural.

Neil G

4

Enquanto muitas vezes de interesse, se apenas para definir uma referência anterior contra a qual a medir outros antecedentes, antecedentes Jeffreys pode ser completamente inútil como por exemplo quando eles conduzir a posteriors impróprios: este é por exemplo o caso com o simples de dois componentes de Gauss mistura com todos os parâmetros desconhecidos. Nesse caso, o posterior do Jeffreys anterior não existe, não importa quantas observações estejam disponíveis. (A prova está disponível em um artigo recente que escrevi com Clara Grazian.)

p N (μ_{0}, σ_{0}^{2}) + (1 - p) N (μ_{1}, σ_{1}^{2})

$p\mathcal{N}(\mu_0,\sigma_0^2)+(1-p)\mathcal{N}(\mu_1,\sigma_1^2)$

Xi'an
fonte

-2

Jeffreys anterior é inútil . Isto é porque:

Apenas especifica a forma da distribuição; não diz quais devem ser seus parâmetros.
Você nunca é completamente ignorante - sempre há algo sobre o parâmetro que você conhece (por exemplo, geralmente não pode ser infinito). Use-o para sua inferência, definindo uma distribuição anterior. Não minta para si mesmo dizendo que não sabe de nada.
"Invariância em transformação" não é uma propriedade desejável. Sua probabilidade muda sob transformação (por exemplo, pelo jacobiano). Isso não cria "novos problemas", acompanha Jaynes. Por que o prior não deveria ser tratado da mesma forma?

Só não use.

ne
fonte

11

Eh? A probabilidade não é uma densidade e não mudará sob reparametrização

innisfree 18/01

Por que o Jeffreys prior é útil?

Respostas: