A soma das variáveis ​​aleatórias lognormal independentes aparece lognormal?

11

Estou tentando entender por que a soma de duas (ou mais) variáveis ​​aleatórias lognormal se aproxima de uma distribuição lognormal à medida que você aumenta o número de observações. Procurei on-line e não encontrei nenhum resultado sobre isso.

Claramente, se e são variáveis ​​lognormal independentes, então pelas propriedades dos expoentes e variáveis ​​aleatórias gaussianas, também é lognormal. No entanto, não há razão para sugerir que também seja lognormal.XX × Y X + YYX×YX+Y

CONTUDO

Se você gerar duas variáveis ​​aleatórias lognormal independentes e , e deixar , e repetir esse processo muitas vezes, a distribuição de parecerá lognormal. Parece até aproximar-se de uma distribuição lognormal à medida que você aumenta o número de observações.Y Z = X + Y ZXYZ=X+YZ

Por exemplo: Após gerar 1 milhão de pares, a distribuição do logaritmo natural de Z é fornecida no histograma abaixo. Isso claramente se parece com uma distribuição normal, sugerindo que é realmente lognormal.Z

insira a descrição da imagem aqui

Alguém tem alguma visão ou referência a textos que possam ser úteis para entender isso?

Patty
fonte
Você está assumindo variações iguais para e ? Se você simular , o log da soma não parecerá mais muito normal. YXYxx <- rlnorm(1e6,0,3); yy <- rlnorm(1e6,0,1)
precisa saber é o seguinte
Eu assumi variâncias iguais - vou tentar outra com variância desigual e ver o que acabo.
Patty
Com variações de 2 e 3, consegui algo que ainda parecia um pouco normal, albiet com o que parece uma pequena inclinação.
Patty
1
Examinar as perguntas anteriores pode ser útil. Aqui e aqui estão documentos potencialmente úteis. Boa sorte!
precisa saber é o seguinte

Respostas:

20

Essa normalidade logarítmica aproximada de somas de lognormals é uma regra prática bem conhecida; é mencionado em vários artigos - e em várias postagens no site.

Uma aproximação lognormal para uma soma de lognormals, combinando os dois primeiros momentos, às vezes é chamada de aproximação de Fenton-Wilkinson.

Você pode encontrar este documento por Dufresne útil (disponível aqui ou aqui ).

Também, no passado, às vezes apontei as pessoas para o artigo de Mitchell

Mitchell, RL (1968),
"Permanência da distribuição log-normal".
J. Sociedade Óptica da América . 58: 1267-1272.

Mas isso agora está coberto nas referências de Dufresne.

Mas, embora ocorra em um conjunto razoavelmente amplo de casos não muito assimétricos, geralmente não ocorre, nem mesmo para os lognormals de iid, nem mesmo quando fica muito grande.n

Aqui está um histograma de 1000 valores simulados, cada um com o log da soma de cinquenta mil inormal lognormals:

histograma da soma de cinquenta mil lognormal

Como você vê ... o log é bastante inclinado, portanto a soma não está muito próxima do lognormal.

De fato, este exemplo também contaria como um exemplo útil para as pessoas que pensam (por causa do teorema do limite central) que alguns nas centenas ou milhares darão médias muito próximas às normais; este é tão inclinado que seu log é consideravelmente inclinado, mas o teorema do limite central se aplica aqui; um de muitos milhões * seria necessário antes que ele parecesse simétrico.nnn

* Não tentei descobrir quantas, mas, devido à maneira como se comporta a assimetria de somas (equivalentemente, médias), alguns milhões serão claramente insuficientes.


Como mais detalhes foram solicitados nos comentários, é possível obter um resultado semelhante ao exemplo com o código a seguir, que produz 1000 repetições da soma de 50.000 variáveis ​​aleatórias lognormal com o parâmetro de escala e o parâmetro de forma :μ=0σ=4

res <- replicate(1000,sum(rlnorm(50000,0,4)))
hist(log(res),n=100)

(Desde então, tentei Seu log ainda está fortemente inclinado para a direita)n=106

Glen_b -Reinstate Monica
fonte
Você pode adicionar os parâmetros (ou trecho de código) usados ​​para criar o histograma na figura?
Alroware 21/09
1
Isso foi há dois anos, não me lembro quais eram os parâmetros lognormal. Mas vamos aplicar uma lógica simples. Você não precisa se preocupar com o parâmetro , pois ele afeta apenas os valores na escala do eixo x, não a forma (algo conveniente como seria usado). Portanto, isso deixa o parâmetro como o único com impacto na forma. Assumindo e voltando à escala aproximada da escala no histograma acima, obtemos que deve estar no campo de aproximadamente ou menos) (NB, tenha cuidado com o que é distorcido). E apenas tentar dá uma aparência bastante semelhante à anterior. μ = 0 σ μ = 0 σ 4 4μμ=0σμ=0σ44
Glen_b
1
Então: res <- replicate(1000,sum(rlnorm(50000,0,4))); hist(log(res),n=100)... se você tentar algumas vezes, verá a escala pular um pouco, mas a imagem geral está certa. Observe que a distorção do momento da população dos lognormals do componente é bilhões - a média da população excederá quase todo valor gerado na maioria das amostras. 26.5
Glen_b -Reinstate Monica
2

Provavelmente é tarde demais, mas encontrei o seguinte artigo sobre as somas de distribuições lognormal , que abordam o tópico. Não é lognormal, mas algo bem diferente e difícil de trabalhar.

Ivan Svetunkov
fonte
1

O artigo de Dufresne de 2009 e este de 2004, juntamente com este artigo útil, cobrem o histórico das aproximações da soma da distribuição log-normal e dão resultado matemático da soma.

μσ

Talvez [este artigo] ( http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=6029348 ) forneça, em um caso específico, uma espécie de teorema central do limite para a soma dos normais de log, mas ainda existe uma falta de generalidade. De qualquer forma, o exemplo dado por Glen_b não é realmente apropriado, porque é um caso em que você pode aplicar facilmente o teorema clássico do limite central e, é claro, nesse caso, a soma do log-normal é gaussiana.

n

Mimì
fonte
1
Você diz que no meu exemplo "você pode aplicar facilmente o teorema clássico do limite central", mas se entender o que o histograma está mostrando, claramente não poderá usar o CLT para argumentar que uma aproximação normal se aplica em n = 50000 para este caso; a soma está tão inclinada à direita que seu log ainda está fortemente inclinado. O ponto do exemplo é que ele é inclinado demais para ser aproximado por um lognormal (ou que o histograma parece muito próximo de simétrico). Uma aproximação menos inclinada (como a normal) seria * pior * /
Glen_b -Reinstala Monica 19/18
Concordo, mas provavelmente no seu exemplo a convergência numérica da amostra não é alcançada (1000 ensaios são muito poucos) ou a convergência estatística não é alcançada (50.000 adendos são muito poucos), mas, no limite do infinito, a distribuição deve ser gaussiano, já que estamos em condições CLT, não é?
Mimì
As 1000 amostras são mais que suficientes para discernir a forma da distribuição da soma - o número de amostras que coletamos não altera a forma, apenas o quão "claramente" a vemos. Essa distorção nítida não desaparecerá se coletarmos uma amostra maior, apenas parecerá mais suave. Sim, 50.000 são muito poucos para a soma parecer normal - é tão inclinado que o log ainda parece muito inclinado. Pode muito bem exigir muitos milhões antes de parecer razoavelmente normal. Sim, o CLT definitivamente se aplica; é iid e a variação é finita; portanto, meios padronizados devem eventualmente se aproximar da normalidade.
Glen_b -Reinstala Monica
1

A lei lognormal está amplamente presente nos fenômenos físicos; somas desse tipo de distribuição variável são necessárias, por exemplo, para estudar qualquer comportamento de escala de um sistema. Eu conheço este artigo (muito longo e muito forte, o começo pode ser entendido se você não for um especilista!), "Efeitos amplos de distribuição em somas de variáveis ​​aleatórias lognormal" publicados em 2003 (o European Physical Journal B-Condensed Matter and Complex Systems 32, 513) e está disponível https://arxiv.org/pdf/physics/0211065.pdf .

vencedor
fonte