Estimador de polarização do momento da distribuição lognormal

25

Estou fazendo um experimento numérico que consiste em amostrar uma distribuição lognormal XLN(μ,σ) e tentar estimar os momentos E[Xn] por dois métodos:

  1. Olhando para a média amostral do Xn
  2. Estimando μ e σ2 usando as médias da amostra para log(X),log2(X) e depois usando o fato de que, para uma distribuição lognormal, temos E[Xn]=exp(nμ+(nσ)2/2) .

A questão é :

Descobri experimentalmente que o segundo método tem um desempenho muito melhor que o primeiro, quando mantenho o número de amostras fixo e aumento μ,σ2 por algum fator T. Existe alguma explicação simples para esse fato?

Estou anexando uma figura na qual o eixo x é T, enquanto o eixo y são os valores de E[X2] comparando os valores reais de E[X2]=exp(2μ+2σ2) (laranja linha), para os valores estimados. método 1 - pontos azuis, método 2 - pontos verdes. o eixo y está na escala do log

Valores verdadeiros e estimados para $ \ mathbb {E} [X ^ 2] $.  Pontos azuis são médias de exemplo para $ \ mathbb {E} [X ^ 2] $ (método 1), enquanto os pontos verdes são os valores estimados usando o método 2. A linha laranja é calculada a partir dos $ \ mu $, $ \ sigma $ pela mesma equação do método 2. O eixo y está na escala logarítmica

EDITAR:

Abaixo está um código Mathematica mínimo para produzir os resultados para um T, com a saída:

   ClearAll[n,numIterations,sigma,mu,totalTime,data,rmomentFromMuSigma,rmomentSample,rmomentSample]
(* Define variables *)
n=2; numIterations = 10^4; sigma = 0.5; mu=0.1; totalTime = 200;
(* Create log normal data*)
data=RandomVariate[LogNormalDistribution[mu*totalTime,sigma*Sqrt[totalTime]],numIterations];

(* the moment by theory:*)
rmomentTheory = Exp[(n*mu+(n*sigma)^2/2)*totalTime];

(*Calculate directly: *)
rmomentSample = Mean[data^n];

(*Calculate through estimated mu and sigma *)
muNumerical = Mean[Log[data]]; (*numerical \[Mu] (gaussian mean) *)
sigmaSqrNumerical = Mean[Log[data]^2]-(muNumerical)^2; (* numerical gaussian variance *)
rmomentFromMuSigma = Exp[ muNumerical*n + (n ^2sigmaSqrNumerical)/2];

(*output*)
Log@{rmomentTheory, rmomentSample,rmomentFromMuSigma}

Saída:

(*Log of {analytic, sample mean of r^2, using mu and sigma} *)
{140., 91.8953, 137.519}

acima, o segundo resultado é a média amostral de , abaixo dos outros dois resultadosr2

user29918
fonte
2
Um estimador imparcial não implica que os pontos azuis devem estar próximos do valor esperado (curva laranja). Um estimador pode ser imparcial se tiver uma alta probabilidade de ser muito baixo e pequeno (talvez incrivelmente pequeno) de ser muito alto. É isso que ocorre à medida que T aumenta e a variação torna-se imensa (veja minha resposta).
Matthew Gunn
Para saber como obter estimadores imparciais, consulte stats.stackexchange.com/questions/105717 . UMVUEs da média e variância são dados nas respostas e comentários.
whuber

Respostas:

22

Há algo intrigante nesses resultados, já que

  1. o primeiro método fornece um estimador imparcial de , a saber 1E[X2] temE[X2]como sua média. Portanto, os pontos azuis devem estar em torno do valor esperado (curva laranja);
    1Ni=1NXi2
    E[X2]
  2. O segundo método proporciona um estimador tendencioso de , isto é, E [ exp ( n μ + n 2 σ 2 / 2 ) ] > exp ( n μ + ( n σ ) 2 / 2 ) quandoE[X2]
    E[exp(nμ^+n2σ^2/2)]>exp(nμ+(nσ)2/2)
    e σ ²são estimadores imparciais deμeσ²μ^σ^²μσ² respectivamente, e é estranho que os pontos verdes estejam alinhados com a curva laranja.

μTσT

Dois segundos momentos empíricos, com base em simulações log-normal de 10⁶

Aqui está o código R correspondente:

moy1=moy2=rep(0,200)
mus=0.14*(1:200)
sigs=sqrt(0.13*(1:200))
tru=exp(2*mus+2*sigs^2)
for (t in 1:200){
x=rnorm(1e5)
moy1[t]=mean(exp(2*sigs[t]*x+2*mus[t]))
moy2[t]=exp(2*mean(sigs[t]*x+mus[t])+2*var(sigs[t]*x+mus[t]))}

plot(moy1/tru,col="blue",ylab="relative mean",xlab="T",cex=.4,pch=19)
abline(h=1,col="orange")
lines((moy2/tru),col="green",cex=.4,pch=19)

μσμσ

E[X2]X2X2e2μX2exp{2μ+2σϵ}ϵN(0,1)σσϵσ2XLN(μ,σ)

P(X2>E[X2])=P(log{X2}>2μ+2σ2)=P(μ+σϵ>μ+σ2)=P(ϵ>σ)=1Φ(σ)
Xi'an
fonte
11
Eu também estou confuso. Eu estou adicionando um código mínimo com os resultados (Mathematica)
user29918
Está bem. Obrigado! Colocando alguns números, vejo agora que meu tamanho de amostra insuficiente realmente não estava pronto para a tarefa!
User29918 26/05
2
σ cresce para o infinito como o meio para se tornar inútil.
Xian
2
P(X2>E[X2])=1Φ(σ)σσ
2
σ
13

Eu pensei em vomitar algumas figuras mostrando que as tramas de user29918 e Xi'an são consistentes. A Figura 1 mostra o que o usuário29918 fez e a Figura 2 (com base nos mesmos dados) faz o que Xi'an fez por seu gráfico. Mesmo resultado, apresentação diferente.

1nixi2

Comentários adicionais:

  1. Um estimador imparcial não significa que o estimador deve estar próximo! Os pontos azuis não precisam estar próximos da expectativa. Por exemplo. uma única observação escolhida aleatoriamente fornece uma estimativa imparcial da média da população, mas não se espera que esse estimador esteja próximo.
  2. A questão está surgindo à medida que a variação está se tornando absolutamente astronômica. À medida que a variação se torna uma bobagem, a estimativa para o primeiro método está sendo conduzida com apenas algumas observações. Você também começa a ter uma probabilidade minúscula de um número insana, insana e insanamente grande ...
  3. P(X2>E[X2])=1Φ(σ)σX2>E[X2]enter image description here

enter image description here

Matthew Gunn
fonte