Distribuição de probabilidade especial

12

Se p(x) é uma distribuição de probabilidade com valores diferentes de zero em [0,+) , para que tipo (s) de p(x) existe uma constante c>0 tal que 0p(x)logp(x)(1+ϵ)p(x(1+ϵ))dxcϵ2para todos os0<ϵ<1?

A desigualdade acima é na verdade uma divergência de Kullback-Leibler entre a distribuição p(x) e uma versão compactada dela (1+ϵ)p(x(1+ϵ)) . Descobri que essa desigualdade vale para as distribuições Exponential, Gamma e Weibull e estou interessado em saber se isso funciona para uma classe maior de distribuições de probabilidade.

Alguma idéia do que essa desigualdade significa?

Sus20200
fonte
3
Como é positivo, isso seria compactado (na direção x) em vez de esticado. ϵ
Glen_b -Reinstala Monica
2
Essa pergunta é ambígua: quais são seus quantificadores? Você quer essa desigualdade de segurar por todo , pelo menos, um ε , ou algo mais? C é dado a priori ou você quer dizer que deveria existir pelo menos um desses valores de c ? E como você menciona classes de distribuições de probabilidade, por " p ( x ) " você quer dizer uma distribuição específica ou talvez uma família paramétrica delas? ϵ ϵccp(x)
whuber
2
Obrigado por seus comentários. Corrigi a declaração do meu problema para esclarecer os problemas mencionados. Quero dizer, para que a desigualdade acima se aplica? A resposta pode ser a introdução de uma família paramétrica de distribuições ou a proposição de uma equação diferencial para p ( x ) que seja suficiente e forneça a desigualdade desejada. p(x)p(x)
Sus20200
2
Essa desigualdade não funcionaria para qualquer p (x) que seja contínuo e com suporte infinito? Você está computando a divergência de KL dentro de uma família paramétrica ( . Se o KL é diferenciável em 0, sua derivada é 0. Tomando C para o máximo da curvatura de KL (por work [ 0 , 1 ] ), temos o limite.Com trabalho adicional, pode ser possível ligar C a partir das propriedades de pϵp(x(1+ϵ))Cϵ[0,1]
Guillaume Dehaene
1
Pode ser infinito desde que . A primeira ordem de expansão do KL é L ε + O ( ε 2 )L=limx0p(x)x=0Lϵ+O(ϵ2)
Arthur B.

Respostas:

4

Preliminares

Escrever

Ip(ϵ)=0p(x)log(p(x)(1+ϵ)p(x(1+ϵ)))dx.

Os logaritmos e o relacionamento entre os e p ( x ( 1 + ε ) ) sugerem que expressa ambos p e o seu argumento como exponenciais. Para esse fim, definap(x)p(x(1+ϵ))p

q(y)=log(p(ey))

para todo real para o qual o lado direito é definido e igual a - sempre que p ( e y ) = 0 . Observe que a mudança das variáveis x = e y implica d x = e y d y e (considerando p como a densidade de uma distribuição) que a Lei da Probabilidade Total pode, assim, ser expressa comoyp(ey)=0x=eydx=eydyp

(1)1=0p(x)dx=Req(y)+ydy.

Vamos assumir quando y ± . eq(y)+y0y± Isso exclui as distribuições de probabilidade com infinitos picos de densidade próximos a 0 ou . Em particular, se as caudas de p forem eventualmente monotônicas, ( 1 ) implica essa suposição, mostrando que não é grave.p0p(1)

Para facilitar o trabalho com os logaritmos, observe também que

1+ϵ=eϵ+O(ϵ2).

Como os cálculos a seguir serão executados até múltiplos de , definaϵ2

δ=log(1+ϵ).

Poderíamos também substituir por e δ , com δ = 0 correspondendo a ϵ = 0 e positivo δ correspondendo a positivo ϵ .1+ϵeδδ=0ϵ=0δϵ

Análise

Uma maneira óbvia em que a desigualdade pode falhar seria para a integral a divergir por algum ε ( 0 , 1 ] . Isso aconteceria se, por exemplo, houvesse qualquer intervalo adequado [ u , v ] de números positivos, não importa quão pequeno, em que p fosse identicamente zero, mas p não fosse zero no intervalo [ u - ϵ , v - ϵ ]Ip(ϵ)ϵ(0,1][u,v]pp[uϵ,vϵ]. Isso faria com que o integrando fosse infinito com probabilidade positiva.

Because the question is unspecific concerning the nature of p, we could get bogged down in technical issues concerning how smooth p might be. Let's avoid such issues, still hoping to gain some insight, by assuming that q everywhere has as many derivatives as we might care to use. (Two will suffice if q is continuous.) Because that guarantees q remains bounded on any bounded set, it implies that p(x) is never zero when x>0.

Note que a questão realmente diz respeito ao comportamento de quando ϵ se aproxima de zero de cima. Como essa integral é uma função contínua de ϵ no intervalo ( 0 , 1 ] , ela atinge um máximo de M p ( a ) quando ϵ é restrito a qualquer intervalo positivo [ a , 1 ] , permitindo escolher c = M p ( a ) / a 2 , porque obviamenteIp(ϵ)ϵϵ(0,1]Mp(a)ϵ[a,1]c=Mp(a)/a2

cϵ2=Mp(a)(ϵa)2Mp(a)Ip(ϵ)

makes the inequality work. This is why we need only be concerned with the calculation modulo ϵ2.

Solution

Using the changes of variable from x to y, from p to q, and ϵ to δ, let's calculate Ip(ϵ) through second order in ϵ (or δ) in the hope of achieving a simplification. To that end define

R(y,δ)δ2=q(y+δ)q(y)δq(y)

to be the order-2 remainder in the Taylor expansion of q around y.

Ip(ϵ)=Req(y)+y(q(y)q(y+δ)δ)dy=Req(y)+y(δ+δq(y)+R(y,δ)δ2)dy=δReq(y)+y(1+q(y))dyδ2Req(y)+yR(y,δ)dy.

Changing variables to q(y)+y in the left hand integral shows it must vanish, as remarked in the assumption following (1). Changing variables back to x=ey in the right hand integral gives

Ip(ϵ)=δ2Rp(x)R(log(x),δ)dy=δ2Ep(R(log(x),δ)).

The inequality holds (under our various technical assumptions) if and only if the coefficient of δ2 on the right hand side is finite.

Interpretation

This is a good point to stop, because it appears to uncover the essential issue: Ip(ϵ) is bounded by a quadratic function of ϵ precisely when the quadratic error in the Taylor expansion of q doesn't explode (relative to the distribution) as y approaches ±.

Let's check some of the cases mentioned in the question: the Exponential and Gamma distributions. (The Exponential is a special case of the Gamma.) We never have to worry about scale parameters, because they merely change the units of measurement. Only non-scale parameters matter.

Here, because p(x)=xkex for k>1,

q(y)=ey+kylogΓ(k+1).
The Taylor expansion around an arbitrary y is
Constant+(key)δey2δ2+.
Taylor's Theorem with Remainder implies R(log(x),δ) is dominated by ey+δ/2<x for sufficiently small δ. Since the expectation of x is finite, the inequality holds for Gamma distributions.

Similar calculations imply the inequality for Weibull distributions, Half-Normal distributions, Lognormal distributions, etc. In fact, to obtain counterexamples we would need to violate at least one assumption, forcing us to look at distributions where p vanishes on some interval, or is not continuously twice differentiable, or has infinitely many modes. These are easy tests to apply to any family of distributions commonly used in statistical modeling.

whuber
fonte