Interpretação do derivado de Radon-Nikodym entre medidas de probabilidade?

11

Já vi em alguns momentos o uso da derivada Radon-Nikodym de uma medida de probabilidade em relação a outra, principalmente na divergência de Kullback-Leibler, onde é a derivada da medida de probabilidade de um modelo para algum parâmetro arbitrário em relação ao parâmetro real :θθ0

dPθdPθ0

Onde ambas são medidas de probabilidade no espaço de pontos de dados condicionais em um valor de parâmetro: .Pθ(D)=P(D|θ)

Qual é a interpretação de um derivado de Radon-Nikodym na divergência de Kullback-Leibler, ou mais geralmente entre duas medidas de probabilidade?

user56834
fonte

Respostas:

12

Primeiro, não precisamos de medidas de probabilidade, apenas -finiteness. Então deixou ser um espaço mensurável e deixar e ser -finite medidas em .σM=(Ω,F)μνσM

O teorema de Radon-Nikodym afirma que se para todo , denotado por , existe um Borel não negativo função tal que para todos .μ(A)=0ν(A)=0AFμνf

ν(A)=Afdμ
AF

Aqui está como eu gosto de pensar nisso. Primeiro, para quaisquer duas medidas em , vamos definir como . Esta é uma relação de equivalência válida e dizemos que e são equivalentes neste caso. Por que isso é uma equivalência sensata para medidas? Medidas são apenas funções, mas seus domínios são difíceis de visualizar. E se duas funções comuns tiverem essa propriedade, ou seja, ? Bem, defina e observe que em qualquer lugar com o apoio deMμνμ(A)=0ν(A)=0μνf,g:RRf(x)=0g(x)=0

h(x)={f(x)/g(x)g(x)0πeo.w.
g temos , e fora do suporte de (já que e compartilham suporte), então permite redimensionar em . Como o @whuber aponta, a idéia principal aqui não é que seja de alguma forma "seguro" para fazer ou ignorar, mas quando então não importa o que faça, podemos defini-lo arbitrariamente (como ser que não tem significado especial aqui) e as coisas ainda funcionam. Também neste caso, podemos definir a função análoga com para quegh=fg gh=0πe=0=ffghgf0/0g=0hπehg/ffh=g .

Em seguida, suponha que , mas a outra direção não se mantém necessariamente. Isso significa que nossa definição anterior de ainda funciona, mas agora não funciona, pois terá divisões reais por . Assim, podemos redimensionar em via , mas não podemos ir na outra direção, pois precisaríamos redimensionar algo em algo diferente de zero.g(x)=0f(x)=0hh0gfgh=f0

Agora vamos voltar para e e denotar nosso RND por . Se , isso significa intuitivamente que um pode ser redimensionado para o outro e vice-versa. Mas geralmente queremos apenas ir uma direção com isso (ou seja, redimensionar uma boa medida, como a medida de Lebesgue, em uma medida mais abstrata); portanto, precisamos apenas de para fazer coisas úteis. Esse redimensionamento é o coração do RND.μνfμνμν

Retornando ao ponto do @ whuber nos comentários, há uma sutileza extra do motivo pelo qual é seguro ignorar o problema . Isso ocorre porque, com as medidas, estamos apenas definindo as coisas para conjuntos de medidas portanto, em qualquer conjunto com , podemos fazer nosso RND assumir qualquer valor, digamos . Portanto, não é que seja intrinsecamente seguro, mas em qualquer lugar que teríamos é um conjunto de medidas wrt para que possamos definir nosso RND como algo bom lá sem afetar nada.0/00Aμ(A)=010/00/00μ

Como exemplo, suponha para alguns . Então então temos que é o RND (isso pode ser justificado mais formalmente pelo teorema da mudança de medidas). Isso é bom porque recuperamos exatamente o fator de escala.kμ=νk>0

ν(A)=Adν=Akdμ
f(x)=k=dνdμ

Aqui está um segundo exemplo para enfatizar como a alteração de RNDs em conjuntos de medidas não os afeta. Seja , ou seja, é o PDF normal padrão mais se a entrada for racional e seja um RV com essa densidade. Isso significa modo que, na verdade, o ainda é um RV gaussiano padrão. Ele não afetou a distribuição de forma alguma para alterar em porque é um conjunto de medidas wrt0f(x)=φ(x)+1Q(x)1X

P(XA)=A(φ+1Q)dλ
=Aφdλ+λ(Q)=Aφdλ
XXQ0λ .

Como exemplo final, suponha que e e permita que e sejam suas respectivas distribuições. Lembre-se de que pmf é um RND com relação à medida de contagem , e como tem a propriedade de que , verifica-se que XPois(η)YBin(n,p)PXPYccc(A)=0A=

dPYdPX=dPY/dcdPX/dc=fYfX

para que possamos calcular

PY(A)=AdPY
=AdPYdPXdPX=AdPYdPXdPXdcdc
=yAdPYdPX(y)dPXdc(y)=yAfY(y)fX(y)fX(y)=yAfY(y).

Assim, como para todos os no suporte de , podemos redimensionar a integração em relação a uma distribuição de Poisson em integração em relação a uma distribuição binomial, embora, porque tudo seja discreto, pareça uma trivial resultado.P(X=n)>0nY


Fiz sua pergunta mais geral, mas não toquei nas divergências de KL. Para mim, pelo menos, acho a divergência KL muito mais fácil de interpretar em termos de teste de hipóteses, como a resposta de @kjetil b halvorsen aqui . Se e existir uma medida que domine os dois, use podemos recuperar o formulário com densidades, então para mim eu acho isso mais fácil.PQμdPdQ=dP/dμdQ/dμ:=p/q

jld
fonte
3
Gostei dessa exposição (como todas as suas contribuições), mas, no fundo, parece se basear na afirmação (repetida) de que faz algum tipo de sentido - mas não faz. Há algo acontecendo com as medidas que não acontecem automaticamente com funções de valores reais: você pode simplesmente ignorar o que acontece nos conjuntos de medidas zero. É assim que você evita ter que entender na configuração de derivado Radon-Nikodym. 0/00/0
whuber
1
@whuber muito obrigado pelo comentário, isso realmente ajuda. Eu tentei atualizar para resolver isso
jld 01/02