Distribuições gama vs. lognormal

29

Eu tenho uma distribuição observada experimentalmente que se parece muito com uma distribuição gama ou lognormal. Eu li que a distribuição lognormal é a distribuição de probabilidade máxima de entropia para uma variável aleatória para a qual a média e a variação de ln ( X ) são fixas. A distribuição gama tem propriedades semelhantes?Xln(X)

OSE
fonte
2
Por que essa propriedade teria algum valor para decidir qual seria um modelo apropriado?
Glen_b -Reinstala Monica
@Glen_b Eu ainda sou iniciante no que diz respeito às estatísticas, então meu conhecimento é bastante básico. Olhando para as parcelas de distribuição gama e lognormal, qualitativamente elas parecem muito semelhantes. Estou procurando diferenças quantitativas entre os dois. Por exemplo, quais são alguns exemplos de aplicações físicas nas quais ocorrem distribuições gama ou lognormal?
OSE
Na realidade, provavelmente nunca ocorre realmente; são modelos extraordinariamente simples que às vezes são aproximações úteis (ainda que grosseiras) da realidade. Vou postar uma resposta que discute algumas diferenças qualitativas.
Glen_b -Reinstala Monica
1
@glen_b: o motivo é que, se você está medindo apenas essas estatísticas, a distribuição suposta mínima é exclusivamente a distribuição exponencial da família com essas estatísticas suficientes. Enquanto qualquer distribuição pode ser um modelo ruim da realidade, se não for livre para escolher quais medidas serão tomadas, essa é uma excelente maneira de escolher um modelo.
Neil G
1
@ Glen_b Eu acho que a distribuição lognormal deve aparecer em algumas situações físicas por causa do CLT.
Stéphane Laurent

Respostas:

27

Quanto às diferenças qualitativas, o lognormal e gama são, como você diz, bastante semelhantes.

De fato, na prática, eles costumam ser usados ​​para modelar os mesmos fenômenos (algumas pessoas usam uma gama, enquanto outras usam um lognormal). Ambos são, por exemplo, modelos de coeficiente de variação constante (o CV para o lognormal é , para a gama é1/eσ21 ).1/α

[Como pode ser constante se depender de um parâmetro, você pergunta? Isso se aplica quando você modela a escala (local da escala de log); para o lognormal, atua como um parâmetro de escala, enquanto para a gama, a escala é o parâmetro que não é o parâmetro de forma (ou é recíproco se você usar a parametrização da taxa de forma). Vou chamar o parâmetro de escala para a distribuição gama β . Os GLMs gama modelam a média ( μ = α β ) mantendo α constante; nesse caso, µ também é um parâmetro de escala. Um modelo com μ variável e α ou σ constante respectivamente terá CV constante.]μβμ=αβαμμασ

Você pode achar instrutivo analisar a densidade de seus logs , o que geralmente mostra uma diferença muito clara.

O log de uma variável aleatória lognormal é ... normal. Simétrico.

O log de uma variável aleatória gama é inclinado para a esquerda. Dependendo do valor do parâmetro shape, ele pode ser bastante inclinado ou quase simétrico.

Aqui está um exemplo, com lognormal e gama com média 1 e variação 1/4. O gráfico superior mostra as densidades (gama em verde, lognormal em azul) e o gráfico inferior mostra as densidades dos logs:

gama e lognormal, densidade e densidade de log

(Plotar o log da densidade dos logs também é útil. Ou seja, fazer uma escala de log no eixo y acima)

CV3+3CV2CV

Glen_b -Reinstate Monica
fonte
+1. Você sabe se existe uma fórmula fechada para a assimetria do log de gama? Para lognormal, a assimetria do log é claramente zero, e estou me perguntando se existe alguma expressão para a gama. A Wikipedia fornece fórmulas para a média e a variação do log (gama), mas não para a assimetria.
Ameba diz Reinstate Monica
0xν1eμx(lnx)pdxp=2,3,4p=1Γ,ψζpcomo um derivado de uma função gama, presumivelmente é possível subir mais. Portanto, a assimetria é certamente factível, mas não especialmente "pura". Se você quiser prosseguir, eu poderia lhe dar as integrais.
Glen_b -Reinstala Monica
No entanto, não precisamos avaliar a assimetria para discernir seu sinal. Examinar o log da densidade dos logs deve ser suficiente para estabelecer isso, porque um lado claramente domina o outro.
Glen_b -Reinstala Monica
Obrigado Glen. Decidi publicá-lo como uma nova pergunta: stats.stackexchange.com/questions/312803 . Passei algum tempo procurando uma resposta pronta, mas não consegui encontrar nenhuma, por isso pode ser valioso para o futuro anotá-la em algum lugar onde seja fácil encontrar. Pode ser um ajuste um pouco melhor para Math.SE, mas eu prefiro tê-lo aqui, para ser honesto.
Ameba diz Reinstate Monica
11

E(X)E(logX)

Para responder à sua pergunta sobre processos físicos que geram essas distribuições: A distribuição lognormal surge quando o logaritmo de X é normalmente distribuído, por exemplo, se X é o produto de muitos fatores pequenos. Se X é gama distribuída, é a soma de muitas variáveis ​​distribuídas exponencialmente. Por exemplo, o tempo de espera para muitos eventos de um processo de Poisson.

Neil G
fonte
5
Não há necessidade de "muitas" variáveis ​​exponenciais serem Gamma.
Stéphane Laurent