Qual é a relação por trás de Jeffreys Priors e uma transformação estabilizadora de variações?

Eu estava lendo sobre o Jeffreys prior na wikipedia: Jeffreys Prior e vi que, após cada exemplo, ele descreve como uma transformação estabilizadora de variância transforma o Jeffreys anterior em um uniforme uniforme.

Como exemplo, para o caso Bernoulli, ele afirma que, para uma moeda com cabeça com probabilidade , o modelo de julgamento de Bernoulli indica que os Jeffreys anteriores ao parâmetro são: $\gamma \in [0,1]$ $\gamma$

p (γ) \propto \frac{1}{\sqrt{γ (1 - γ)}}

$p(\gamma) \propto \frac{1}{\sqrt{\gamma ( 1-\gamma)}}$

Ele então afirma que essa é uma distribuição beta com . Ele também afirma que se , o Jeffreys anterior para é uniforme no intervalo . $\alpha = \beta = \frac{1}{2}$ $\gamma = \sin^2(\theta)$ $\theta$ $\left[0, \frac{\pi}{2}\right]$

Reconheço a transformação como a transformação estabilizadora de variações. O que me confunde é:

Por que uma transformação estabilizadora de variância resultaria em um uniforme anterior?
Por que queremos um uniforme antes? (pois parece que pode ser mais suscetível a ser impróprio)

Em geral, não sei ao certo por que a transformação quadrado-seno é dada e qual o papel desempenhado. Alguém teria alguma idéia?

bayesian prior jeffreys-prior user1398057
fonte

Vou me mostrar como um charlatão autodidata perguntando isso, mas: a qual transformação estabilizadora de variações você está se referindo? ?

\frac{1}{\sqrt{\sin^{2} (θ) (1 - \sin^{2} (θ))}}

$\frac{1}{\sqrt{\sin^2(\theta) \left( 1 - \sin^2(\theta) \right)}}$

Shadowtalker

O seno quadrado é convencionalmente o caminho errado para pensar na transformação. é a raiz quadrada do arcsine ou a transformação angular.

θ = arcsin \sqrt[]{γ}

$\theta = \text{arcsin} \root \of \gamma$

Nick Cox

Respostas:

O prior de Jeffreys é invariável sob reparametrização. Por esse motivo, muitos bayesianos consideram que é um “prioritário não informativo”. (Hartigan mostrou que existe um espaço inteiro desses antecedentes para onde é o prior de Jeffreys e é o prioritário assintoticamente localmente invariante de Hartigan. - Distribuições anteriores invariantes ) $J^\alpha H^\beta$ $\alpha + \beta=1$ $J$ $H$

É uma falsidade repetida frequentemente que o uniforme anterior não é informativo, mas após uma transformação arbitrária de seus parâmetros, e um uniforme anterior nos novos parâmetros significa algo completamente diferente. Se uma mudança arbitrária de parametrização afeta o seu prior, o seu prior é claramente informativo.

Usar o Jeffreys é, por definição , equivalente a usar um flat anterior após aplicar a transformação estabilizadora de variância.
Do ponto de vista matemático, o equivalente a Jeffreys anterior e o plano anterior após a aplicação da transformação estabilizadora de variância são equivalentes. Do ponto de vista humano, o último é provavelmente melhor, porque o espaço do parâmetro se torna "homogêneo" no sentido de que as diferenças são todas iguais em todas as direções, não importa onde você esteja no espaço do parâmetro.

Considere o seu exemplo de Bernoulli. Não é um pouco estranho que pontuar 99% em um teste tenha a mesma distância de 90% e 59% de 50%? Após sua transformação estabilizadora de variância, o par anterior é mais separado, como deveria ser. Corresponde à nossa intuição sobre distâncias reais no espaço. Matematicamente, a transformação estabilizadora de variância está tornando a curvatura da perda de log igual à matriz de identidade.

Neil G
fonte

1. Concordo que um prior uniforme não significa prior não "informativo", mas meu comentário sobre não avaliar um determinado valor em detrimento de outro valor ainda é válido (sob essa parametrização específica). 2. A propensão de um prior é muito preocupante . Se você tem um impróprios dados anteriores e ter, é não garantido que você vai ter uma posterior adequado. Então é muito preocupante.

Greenparker

1. Mas esse é o ponto: a parametrização é arbitrária; portanto, não faz sentido dizer que você não está valorizando um valor em detrimento de outro. 2. Na prática, nunca achei isso preocupante. Pode ser preocupante para outras pessoas, eu acho.

Neil G

1. ponto justo. 2. Não tenho certeza com quais problemas você lida, mas mesmo a simples probabilidade gaussiana de um Jeffreys anterior pode ter um posterior inadequado. Veja minha resposta aqui .

Greenparker

@ Greenparker Você está certo. Esclarecerei por que não me diz respeito na minha resposta.

Neil G

Não acho que a edição esteja correta. Se a posterior for inadequada, o MCMC certamente não fará sentido, pois você está tentando extrair uma distribuição indefinida. Imagine tentar amostrar de Uniform usando qualquer esquema de amostragem. Embora, o algoritmo MCMC ainda possa ser ergódico (quando houver recorrência nula), mas suas amostras serão inúteis.

(0, \infty)

$(0,\infty)$

Greenparker

A página da Wikipedia que você forneceu realmente não usa o termo "transformação estabilizadora de variações". O termo "transformação estabilizadora de variância" é geralmente usado para indicar transformações que tornam constante a variação da variável aleatória. Embora no caso Bernoulli, é isso que está acontecendo com a transformação, não é exatamente esse o objetivo. O objetivo é obter uma distribuição uniforme, e não apenas uma que estabilize a variância.

Lembre-se de que um dos principais objetivos do uso anterior de Jeffreys é que ele é invariável em transformação. Isso significa que, se você parametrizar a variável, o anterior não será alterado.

O Jeffreys anterior neste caso Bernoulli, como você apontou, é um Beta . $(1/2, 1/2)$

p_{γ} (γ) \propto \frac{1}{\sqrt{γ (1 - γ)}} .

$p_{\gamma}(\gamma) \propto \dfrac{1}{\sqrt{\gamma(1-\gamma)}}.$

Reparametrizando com , podemos encontrar a distribuição de . Primeiro vamos ver que e desde , . Lembre-se de que . $\gamma = \sin^2(\theta)$ $\theta$ $\theta = \arcsin(\sqrt{\gamma})$ $0 < \gamma < 1$ $0 < \theta < \pi/2$ $\sin^2(x) + \cos^2(x) = 1$

\begin{aligned} F_{θ} (x) & = P (θ < x) \\ = P ({pecado}^{2} (θ) < {pecado}^{2} (x)) \\ = P (γ < {pecado}^{2} (x)) \\ = F_{γ} ({pecado}^{2} (x)) \\ f_{θ} (x) & = \frac{d F_{γ} ({pecado}^{2} (x)}{d x} \\ = 2 pecado (x) porque (x) p_{γ} ({pecado}^{2} (x)) \\ \propto pecado (x) porque (x) \frac{1}{\sqrt{{pecado}^{2} (x) (1 - {pecado}^{2} (x))}} \\ = 1 \end{aligned}

$\begin{align*} F_{\theta}(x) & = P(\theta < x)\\ & = P(\sin^2(\theta) < \sin^2(x))\\ & = P(\gamma < \sin^2(x))\\ & = F_{\gamma}(\sin^2(x))\\ f_{\theta}(x) & = \dfrac{d F_{\gamma}(\sin^2(x)}{d x}\\ & = 2\sin(x)\cos(x)\,p_{\gamma}(\sin^2(x))\\ & \propto \sin(x)\cos(x) \dfrac{1}{\sqrt{\sin^2(x)(1 - \sin^2(x))}}\\ & =1. \end{align*}$

Assim, é a distribuição uniforme em . É por isso que a transformação é usada, para que a re-parametrização leve a uma distribuição uniforme. A distribuição uniforme agora é o Jeffreys anterior em (já que Jeffreys anterior é invariante em transformação). Isso responde à sua primeira pergunta. $\theta$ $(0, \pi/2)$ $\sin^2(\theta)$ $\theta$

Freqüentemente, na análise bayesiana, se deseja um uniforme uniforme quando não há informações suficientes ou conhecimento prévio sobre a distribuição do parâmetro. Tal prioritário também é chamado de "prioritário difuso" ou "prioritário padrão". A idéia é não confirmar mais nenhum valor no espaço de parâmetro do que outros valores. Nesse caso, o posterior é completamente dependente da probabilidade dos dados. Desde,

q (θ | x) \propto f (x | θ) f (θ) \propto f (x | θ) .

$q(\theta|x) \propto f(x|\theta) f(\theta) \propto f(x|\theta).$

Se a transformação for tal que o espaço transformado seja delimitado (como neste exemplo), a distribuição uniforme será adequada. Se o espaço transformado for ilimitado, o anterior uniforme será inadequado, mas frequentemente o posterior resultante será adequado. Embora, deve-se sempre verificar se esse é o caso. $(0, \pi/2)$

Greenparker
fonte

Essa idéia de que você "não está se comprometendo com nenhum valor" usando um prior difuso está errada. A prova é que você pode fazer qualquer transformação do espaço e o anterior difuso significará algo completamente diferente.

Neil G

Meu comentário sobre "não se comprometer com nenhum valor" refere-se apenas a essa parametrização específica. Obviamente, as transformações mudarão a maneira como a massa é distribuída (como neste exemplo de Bernoulli).

Greenparker

Como eu disse abaixo do seu outro comentário, a parametrização é arbitrária, e é por isso que a afirmação "não se comprometer com nenhum valor" não tem sentido.

Neil G