Eu estava lendo sobre o Jeffreys prior na wikipedia: Jeffreys Prior e vi que, após cada exemplo, ele descreve como uma transformação estabilizadora de variância transforma o Jeffreys anterior em um uniforme uniforme.
Como exemplo, para o caso Bernoulli, ele afirma que, para uma moeda com cabeça com probabilidade , o modelo de julgamento de Bernoulli indica que os Jeffreys anteriores ao parâmetro são:γ
Ele então afirma que essa é uma distribuição beta com . Ele também afirma que se , o Jeffreys anterior para é uniforme no intervalo . γ=sen2(θ)θ[0,π
Reconheço a transformação como a transformação estabilizadora de variações. O que me confunde é:
Por que uma transformação estabilizadora de variância resultaria em um uniforme anterior?
Por que queremos um uniforme antes? (pois parece que pode ser mais suscetível a ser impróprio)
Em geral, não sei ao certo por que a transformação quadrado-seno é dada e qual o papel desempenhado. Alguém teria alguma idéia?
fonte
Respostas:
O prior de Jeffreys é invariável sob reparametrização. Por esse motivo, muitos bayesianos consideram que é um “prioritário não informativo”. (Hartigan mostrou que existe um espaço inteiro desses antecedentes para onde é o prior de Jeffreys e é o prioritário assintoticamente localmente invariante de Hartigan. - Distribuições anteriores invariantes ) α + β = 1 J HJαHβ α + β= 1 J H
É uma falsidade repetida frequentemente que o uniforme anterior não é informativo, mas após uma transformação arbitrária de seus parâmetros, e um uniforme anterior nos novos parâmetros significa algo completamente diferente. Se uma mudança arbitrária de parametrização afeta o seu prior, o seu prior é claramente informativo.
Usar o Jeffreys é, por definição , equivalente a usar um flat anterior após aplicar a transformação estabilizadora de variância.
Do ponto de vista matemático, o equivalente a Jeffreys anterior e o plano anterior após a aplicação da transformação estabilizadora de variância são equivalentes. Do ponto de vista humano, o último é provavelmente melhor, porque o espaço do parâmetro se torna "homogêneo" no sentido de que as diferenças são todas iguais em todas as direções, não importa onde você esteja no espaço do parâmetro.
Considere o seu exemplo de Bernoulli. Não é um pouco estranho que pontuar 99% em um teste tenha a mesma distância de 90% e 59% de 50%? Após sua transformação estabilizadora de variância, o par anterior é mais separado, como deveria ser. Corresponde à nossa intuição sobre distâncias reais no espaço. Matematicamente, a transformação estabilizadora de variância está tornando a curvatura da perda de log igual à matriz de identidade.
fonte
A página da Wikipedia que você forneceu realmente não usa o termo "transformação estabilizadora de variações". O termo "transformação estabilizadora de variância" é geralmente usado para indicar transformações que tornam constante a variação da variável aleatória. Embora no caso Bernoulli, é isso que está acontecendo com a transformação, não é exatamente esse o objetivo. O objetivo é obter uma distribuição uniforme, e não apenas uma que estabilize a variância.
Lembre-se de que um dos principais objetivos do uso anterior de Jeffreys é que ele é invariável em transformação. Isso significa que, se você parametrizar a variável, o anterior não será alterado.
1
O Jeffreys anterior neste caso Bernoulli, como você apontou, é um Beta .( 1 / 2 , 1 / 2 )
Reparametrizando com , podemos encontrar a distribuição de . Primeiro vamos ver que e desde , . Lembre-se de que .γ= sin2( θ ) θ θ = arcsin( γ--√) 0 < γ< 1 0 < θ < π/ 2 pecado2( x ) + cos2( x ) = 1
Assim, é a distribuição uniforme em . É por isso que a transformação é usada, para que a re-parametrização leve a uma distribuição uniforme. A distribuição uniforme agora é o Jeffreys anterior em (já que Jeffreys anterior é invariante em transformação). Isso responde à sua primeira pergunta.( 0 , π / 2 ) sin 2 ( θ ) θθ ( 0 , π/ 2) pecado2( θ ) θ
2)
Freqüentemente, na análise bayesiana, se deseja um uniforme uniforme quando não há informações suficientes ou conhecimento prévio sobre a distribuição do parâmetro. Tal prioritário também é chamado de "prioritário difuso" ou "prioritário padrão". A idéia é não confirmar mais nenhum valor no espaço de parâmetro do que outros valores. Nesse caso, o posterior é completamente dependente da probabilidade dos dados. Desde,
Se a transformação for tal que o espaço transformado seja delimitado (como neste exemplo), a distribuição uniforme será adequada. Se o espaço transformado for ilimitado, o anterior uniforme será inadequado, mas frequentemente o posterior resultante será adequado. Embora, deve-se sempre verificar se esse é o caso.( 0 , π/ 2)
fonte