Qual tem a cauda mais pesada, lognormal ou gama?

(Isso se baseia em uma pergunta que acabei de chegar por e-mail; adicionamos algum contexto de uma breve conversa anterior com a mesma pessoa.)

No ano passado, disseram-me que a distribuição gama é mais pesada que a lognormal, e desde então me disseram que não é o caso.

Qual é a cauda mais pesada?
Quais são alguns recursos que posso usar para explorar o relacionamento?

distributions gamma-distribution lognormal heavy-tailed Glen_b
fonte

Para a pessoa que acabou de votar: Seria útil saber qual é o problema percebido com a pergunta.

Glen_b

Não fui eu, votei há muito tempo. No entanto, suspeito que tenha sido a utilidade da cauda pesada versus curtose no contexto de suposições dos testes t na presença de discrepantes, o que não tem absolutamente nada a ver com o que você pediu. A redução de votos é, IMHO, problemática .

Carl

Respostas:

A cauda (direita) de uma distribuição descreve seu comportamento em grandes valores. O objecto correcto para estudo não é a sua densidade - que, em muitos casos práticos não existe - mas sim a sua função de distribuição $F$ . Mais especificamente, como $F$ deve subir assintoticamente para $1$ para grandes argumentos $x$ (pela Lei da Probabilidade Total), estamos interessados em quão rapidamente ela se aproxima dessa assíntota: precisamos investigar o comportamento de sua função de sobrevivência $1- F(x)$ como $x \to \infty$ .

$F$ $X$ $G$ $F$ $G$ $x_0$ $x \gt x_0$

{Pr}_{F} (X > x) = 1 - F (x) > 1 - G (x) = {Pr}_{G} (X > x) .

${\Pr}_F(X\gt x) = 1 - F(x) \gt 1 - G(x) = {\Pr}_G(X\gt x).$

Figura

A curva vermelha nesta figura é a função de sobrevivência para uma distribuição de Poisson . A curva azul é para uma distribuição gama , que tem a mesma variação. Eventualmente, a curva azul sempre excede a curva vermelha, mostrando que essa distribuição gama tem uma cauda mais pesada que a distribuição Poisson. Essas distribuições não podem ser facilmente comparadas usando densidades, porque a distribuição de Poisson não tem densidade. $(3)$ $(3)$

É verdade que, quando as densidades e existir e para então é mais pesado do que caudas . No entanto, o inverso é falso - e esse é um motivo convincente para basear a definição de peso da cauda nas funções de sobrevivência, e não nas densidades, mesmo que frequentemente a análise das caudas possa ser mais facilmente realizada usando as densidades. $f$ $g$ $f(x) \gt g(x)$ $x \gt x_0$ $F$ $G$

Contra-exemplos podem ser construídos usando uma distribuição discreta de suporte ilimitado positivo que, no entanto, não é mais pesado que (discretizar fará o truque). Transforme isso em uma distribuição contínua, substituindo a massa de probabilidade de em cada um dos pontos de suporte , escritos , por (digamos) uma distribuição Beta escala com suporte em um intervalo adequado e ponderado por . Dado um pequeno número positivo escolha $H$ $G$ $G$ $H$ $k$ $h(k)$ $(2,2)$ $[k-\varepsilon(k), k+\varepsilon(k)]$ $h(k)$ $\delta,$ $\varepsilon(k)$ suficientemente pequeno para garantir que o pico de densidade dessa distribuição Beta em escala exceda . Por construção, a mistura é uma distribuição contínua cuja cauda se parece com a de (é uniformemente um pouco menor em quantidade ), mas tem picos em sua densidade no suporte de e todos esses espigões têm pontos em que excedem a densidade de . Assim é mais leve de cauda do que , mas não importa o quão longe na cauda vamos haverá pontos onde a sua densidade excede o de . $f(k)/\delta$ $\delta H + (1-\delta )G$ $G^\prime$ $G$ $\delta$ $H$ $f$ $G^\prime$ $F$ $F$

Figura

A curva vermelha é o PDF de uma distribuição gama , a curva de ouro é o PDF de uma distribuição lognormal , e a curva azul (com espinhos) é o PDF de uma mistura construída como no contra-exemplo. (Observe o eixo da densidade logarítmica.) A função de sobrevivência de é próxima à de uma distribuição Gamma (com oscilações em decadência rápida): ela eventualmente crescerá menos que a de , mesmo que seu PDF sempre aumente acima dela. de não importa a que distância caíssemos. $G$ $F$ $G^\prime$ $G^\prime$ $F$ $F$

Discussão

Aliás, podemos realizar essa análise diretamente nas funções de sobrevivência das distribuições lognormal e gama, expandindo-as em torno de para encontrar seu comportamento assintótico e concluir que todos os lognormals têm caudas mais pesadas do que todos os gama. Porém, como essas distribuições têm densidades "agradáveis", a análise é mais facilmente realizada mostrando que para suficientemente grande , uma densidade lognormal excede uma densidade Gamma. No entanto, não confundamos essa conveniência analítica com o significado de uma cauda pesada. $x=\infty$ $x$

Da mesma forma, embora momentos mais altos e suas variantes (como assimetria e curtose) digam um pouco sobre as caudas, eles não fornecem informações suficientes. Como um exemplo simples, podemos truncar qualquer distribuição lognormal com um valor tão grande que um determinado número de momentos dificilmente mude - mas, ao fazê-lo, removeremos completamente a cauda, tornando-a mais clara do que qualquer distribuição com limites ilimitados. suporte (como um Gamma).

Uma objeção justa a essas contorções matemáticas seria apontar que o comportamento até o momento não tem aplicação prática, porque ninguém jamais acreditaria que qualquer modelo distributivo será válido com valores tão extremos (talvez fisicamente inatingíveis). Isso mostra, no entanto, que em aplicações devemos ter cuidado para identificar qual parte da cauda é preocupante e analisá-la de acordo. (Os tempos de recorrência de inundações, por exemplo, podem ser entendidos neste sentido: inundações de 10 anos, inundações de 100 anos e inundações de 1000 anos caracterizam seções específicas da cauda da distribuição de inundações.) Os mesmos princípios se aplicam, porém: O objeto fundamental da análise aqui é a função de distribuição e não a sua densidade.

whuber
fonte

+1 excelente discussão sobre por que deve basear-se na função de sobrevivente. Eu recomendei à fonte original da pergunta que eles deveriam dar uma olhada na sua resposta.

Glen_b

(+1) para uma boa discussão probabilística de como interpretar a função de sobrevivência.

Esta definição de caudas pesadas é boa, como uma definição. Mas tem sérios problemas. Em particular, existem distribuições limitadas que podem ter caudas pesadas, como uma distribuição .9999 * U (-1,1) + .0001 * U (-1000,1000). Pela "definição" dada, a distribuição N (0,1) tem caudas mais pesadas do que a distribuição .9999 * U (-1,1) + .0001 * U (-1000,1000). Isso é obviamente bobo. Vamos ser sinceros: existem infinitas maneiras de medir a cauda da distribuição.

precisa

@ Peter A "bobagem" surge porque você parece ter entendido as idéias ao contrário. Nenhum dos seus exemplos tem uma cauda "pesada" em qualquer sentido, porque eles são limitados. Ambas as funções de sobrevivência acabam sendo exatamente zero e, portanto, ambas as caudas são igualmente leves.

whuber

@ PeterWestfall Você comparou caudas com suporte limitado com aquelas com suporte infinito, como se isso fosse significativo. Existem muitos contextos nos quais isso seria desnecessário, até bobo. Nos contextos em que alguém os compararia, uma proporção de diferença quantil pode ser apropriada. Não há muitos contextos além desses e, se você puder pensar em um, conte.

223 de Carl

A gama e o lognormal são ambos os desvios certos, distribuições de coeficiente de variação constante em , e muitas vezes são a base de modelos "concorrentes" para tipos específicos de fenômenos. $(0,\infty)$

Existem várias maneiras de definir o peso de uma cauda, mas, neste caso, acho que todas as usuais mostram que o lognormal é mais pesado. (O que a primeira pessoa pode estar falando é sobre o que acontece não na extremidade oposta, mas um pouco à direita do modo (digamos, em torno do 75º percentil no primeiro gráfico abaixo, que para o lognormal está logo abaixo de 5 e a gama logo acima de 5.)

No entanto, vamos apenas explorar a questão de uma maneira muito simples para começar.

Abaixo estão as densidades gama e lognormal com média 4 e variância 4 (plotagem superior - gama é verde escuro, lognormal é azul) e, em seguida, o log da densidade (inferior), para que você possa comparar as tendências nas caudas:

insira a descrição da imagem aqui

É difícil ver muitos detalhes no gráfico superior, porque toda a ação está à direita de 10. Mas é bem claro no segundo gráfico, onde a gama está descendo muito mais rapidamente do que o lognormal.

Outra maneira de explorar o relacionamento é observar a densidade dos logs, como na resposta aqui ; vemos que a densidade dos logs para o lognormal é simétrica (é normal!) e que para a gama é inclinada para a esquerda, com um rabo leve à direita.

Podemos fazer isso algebricamente, onde podemos observar a razão de densidades como (ou o logaritmo da razão). Seja uma densidade gama log normal: $x\rightarrow\infty$ $g$ $f$

\log (g (x) / f (x)) = \log (g (x)) - \log (f (x))

$\log(g(x)/f(x)) = \log(g(x)) - \log(f(x))$

= \log (\frac{1}{Γ (α) β^{α}} x^{α - 1} e^{- x / β}) - \log (\frac{1}{\sqrt{2 π} σ x} e^{- \frac{(\log (x) - μ)^{2}}{2 σ^{2}}})

$=\log\left(\frac{1}{\Gamma(\alpha)\beta^\alpha}x^{\alpha-1}e^{-x/\beta}\right)-\log\left(\frac{1}{\sqrt{2\pi}\sigma x}e^{-\frac{(\log(x)-\mu)^2}{2\sigma^2}}\right)$

= - k_{1} - (α - 1) \log (x) - x / β - (- k_{2} - \log (x) - \frac{(\log (x) - μ)^{2}}{2 σ^{2}})

$=-k_1-(\alpha-1)\log(x)-x/\beta - (-k_2-\log(x)-\frac{(\log(x)-\mu)^2}{2\sigma^2})$

= [c - (α - 2) \log (x) + \frac{(\log (x) - μ)^{2}}{2 σ^{2}}] - x / β

$=\left[c-(\alpha-2)\log(x)+\frac{(\log(x)-\mu)^2}{2\sigma^2}\right]-x/\beta$

O termo em [] é quadrático em , enquanto o termo restante está diminuindo linearmente em . Não importa o que, esse acabe diminuindo mais rapidamente do que o aumento quadrático, independentemente dos valores dos parâmetros . No limite de , o log da razão de densidades está diminuindo em direção a , o que significa que o pdf gama é eventualmente muito menor que o pdf lognormal, e continua diminuindo relativamente. Se você considerar a proporção de outra maneira (com lognormal na parte superior), ela deverá aumentar além de qualquer limite. $\log(x)$ $x$ $-x/\beta$ $x\rightarrow\infty$ $-\infty$

Ou seja, qualquer lognormal dado é eventualmente mais pesado do que qualquer gama.

Outras definições de peso:

Algumas pessoas estão interessadas em assimetria ou curtose para medir o peso da cauda direita. Em um dado coeficiente de variação, o lognormal é mais inclinado e possui curtose maior que a gama . **

Por exemplo, com assimetria , a gama tem uma assimetria de 2CV enquanto a lognormal é 3CV + CV . $^3$

Existem algumas definições técnicas de várias medidas de quão pesadas as caudas estão aqui . Você pode tentar algumas dessas com essas duas distribuições. O lognormal é um caso especial interessante na primeira definição - todos os seus momentos existem, mas o MGF não converge acima de 0, enquanto o MGF do Gamma converge em uma vizinhança em torno de zero.

** Como Nick Cox menciona abaixo, a transformação usual para aproximar a normalidade da gama, a transformação Wilson-Hilferty, é mais fraca que o log - é uma transformação na raiz do cubo. Em pequenos valores do parâmetro shape, a quarta raiz foi mencionada. Em vez disso, veja a discussão nesta resposta , mas em ambos os casos é uma transformação mais fraca para atingir quase a normalidade.

A comparação de assimetria (ou curtose) não sugere nenhuma relação necessária no extremo extremo - ela nos diz algo sobre o comportamento médio; mas, por esse motivo, pode funcionar melhor se o argumento original não estiver sendo feito sobre a cauda extrema.

Recursos : É fácil usar programas como R ou Minitab ou Matlab ou Excel ou o que você quiser para desenhar densidades e densidades de log e logs de proporções de densidades ... e assim por diante, para ver como as coisas acontecem em casos específicos. É com isso que eu sugiro começar.

Glen_b
fonte

De fato, isso sugere isso, mas não há relação necessária entre pico, cauda pesada e curtose; existem contra-exemplos para essas expectativas, por isso devemos tomar cuidado. A segunda trama confirma a suspeita.

Glen_b

Aqui está uma frase. É uma definição de que a transformação de log é necessária para tornar um lognormal normal; é uma boa aproximação que uma raiz de cubo torne uma gama normal (Wilson-Hilferty são duas palavras para os sábios); a distribuição que necessita de uma transformação mais forte está "mais longe" do normal ou gaussiana.

Nick Cox

@Glen_b Estou apenas adicionando um pouco de decoração a um bolo muito bonito.

Nick Cox

@ Nick Cox Eu não discordo das declarações sobre transformações. A parte matematicamente ilegítima é a conclusão que você tenta tirar: do fato de um logaritmo tornar normal o log normal e uma raiz de cubo tornar uma gama aproximadamente normal, você não pode tirar nenhuma conclusão sobre as caudas de qualquer um.

whuber

Obrigado; seu ponto de vista é mais claro para mim, mas eu mantenho minha redação de "regra de ouro" e invoco experiência também. Claramente, eu não tenho um teorema.

22614 Nick Nick Cox

Embora a curtose esteja relacionada ao peso das caudas, ela contribuiria mais para a noção de distribuição de cauda de gordura e, relativamente, para a própria cauda, como mostra o exemplo a seguir. Nisto, agora regurgito o que aprendi nos posts acima e abaixo, que são realmente excelentes comentários. Primeiro, a área de uma cauda direita é a área de x a de uma função de densidade , também conhecida como função de sobrevivência, . Para a distribuição normal do e a distribuição gama $\infty$ $f(x)$ $1-F(t)$ $\frac{e^{-\frac{(\log (x)-\mu )^2}{2 \sigma ^2}}}{\sqrt{2 \pi } \sigma x};x\geq 0$ $\frac{\beta ^{\alpha } x^{\alpha -1} e^{-\beta x}}{\Gamma (\alpha )};x\geq 0$ , vamos comparar suas respectivas funções de sobrevivência e graficamente. Para fazer isso, defini arbitrariamente suas respectivas variações e , bem como seus respectivos excessos kurtoses e igual escolhendo e resolvido para . Isso mostra $\frac{1}{2} \text{erfc}\left(\frac{ \log (x)-\mu}{\sqrt{2} \sigma}\right)$ $Q(\alpha ,\beta x)=\frac{\Gamma (\alpha , \beta x)}{\Gamma (\alpha )}$ $\left(e^{\sigma ^2}-1\right) e^{2 \mu +\sigma ^2}$ $\frac{\alpha }{\beta ^2}$ $3 e^{2 \sigma ^2}+2 e^{3 \sigma ^2}+e^{4 \sigma ^2}-6$ $\frac{6}{\alpha }$ $\mu =0, \sigma =0.8$ $\alpha \to 0.19128,\beta \to 0.335421$

a função de sobrevivência para a distribuição lognormal (LND) em azul e a distribuição gama (GD) em laranja. Isso nos leva à nossa primeira cautela. Ou seja, se esse gráfico fosse tudo o que devíamos examinar, poderíamos concluir que a cauda para GD é mais pesada que para LND. Como esse não é o caso, é mostrado estendendo os valores do eixo x do gráfico,

Este gráfico mostra que 1) mesmo com kurtoses iguais, as áreas da cauda direita de LND e GD podem diferir. 2) Essa interpretação gráfica sozinha tem seus perigos, pois só pode exibir resultados para valores de parâmetros fixos em um intervalo limitado. Portanto, é necessário encontrar expressões gerais para a taxa de função de sobrevivência limitante de . Não consegui fazer isso com infinitas expansões em série. No entanto, eu pude fazer isso usando o intermediário de funções terminais ou assintóticas, que não são funções únicas e, onde, para a direita, caudas é suficiente para e $\lim_{x\to \infty } \, \frac{S(\text{LND},x)}{S(\text{GD},x)}$ $\lim_{x\to \infty } \, \frac{F(x)}{G(x)}=1$ $F(x)$ $G(x)$ ser mutuamente assintóticos. Com o cuidado apropriado para encontrar essas funções, isso tem o potencial de identificar um subconjunto de funções mais simples que as próprias funções de sobrevivência, que podem ser compartilhadas ou mantidas em comum com mais de uma função de densidade; por exemplo, duas funções de densidade diferentes podem compartilhar uma cauda exponencial limitante. Na versão anterior deste post, era a isso que eu estava me referindo como a "complexidade adicional de comparar funções de sobrevivência". Observe que, e (aliás e não necessariamente e $\lim_{u\to \infty } \, \frac{\text{erfc}(u)}{\frac{e^{-u^2}}{\sqrt{\pi } u}}=1$ $\lim_{u\to \infty } \, \frac{\Gamma (\alpha ,u)}{e^{-u} u^{\alpha -1}}=1$ $\text{erfc}(u)<\frac{e^{-u^2}}{\sqrt{\pi } u}$ $\Gamma (\alpha ,u )<e^{-u} u^{\alpha -1}$ . Ou seja, não é necessário escolher um limite superior, apenas uma função assintótica). Aqui escrevemos e que a proporção dos termos da mão direita tem o mesmo limite de como os termos da mão esquerda. A simplificação da taxa limite dos termos da mão direita produz $\frac{1}{2} \text{erfc}\left(\frac{\log (x)-\mu }{\sqrt{2} \sigma }\right)<\frac{e^{-\left(\frac{\log (x)-\mu }{\sqrt{2} \sigma }\right)^2}}{\frac{2 \left(\sqrt{\pi } (\log (x)-\mu )\right)}{\sqrt{2} \sigma }}$ $\frac{\Gamma (\alpha ,\beta x)}{\Gamma (\alpha )}<\frac{e^{-\text{$\beta $x}} (\beta x)^{\alpha -1}}{\Gamma (\alpha )}$ $x\to \infty$ $\lim_{x\to \infty } \, \frac{\sigma \Gamma (\alpha ) (\beta x)^{1-\alpha } e^{\beta x-\frac{(\mu -\log (x))^2}{2 \sigma ^2}}}{\sqrt{2 \pi } (\log (x)-\mu )}=\infty$ o que significa que para x suficientemente grande, a área da cauda LND é tão grande quanto gostamos em comparação com a área da cauda GD, independentemente dos valores dos parâmetros. Isso traz outro problema: nem sempre temos soluções verdadeiras para todos os valores de parâmetros; portanto, usar apenas ilustrações gráficas pode ser enganoso. Por exemplo, a área da cauda direita da distribuição gama é maior que a área da cauda exponencial quando , menor que a exponencial quando e o GD é exatamente uma distribuição exponencial quando . $\alpha < 1$ $\alpha >1$ $\alpha =1$

Qual é então a utilidade de obter os logaritmos da razão das funções de sobrevivência, já que obviamente não precisamos de logaritmos para encontrar uma razão limitante? Muitas funções de distribuição contêm termos exponenciais que parecem mais simples quando o logaritmo é obtido e, se a proporção chegar ao infinito no limite, à medida que x aumenta, o logaritmo também o fará. No nosso caso, isso nos permitiria inspecionar , que algumas pessoas considerariam mais simples de se olhar. Por fim, se a taxa de funções de sobrevivência for zero, o logaritmo dessa taxa irá para $\lim_{x\to \infty } \, \left(\log \left(\frac{\sigma \Gamma (\alpha ) (\beta x)^{1-\alpha }}{\sqrt{2 \pi } (\log (x)-\mu )}\right)+\beta x-\frac{(\mu -\log (x))^2}{2 \sigma ^2}\right)=\infty$ $-\infty$ e, em todos os casos, depois de encontrar o limite de um logaritmo de uma razão, precisamos usar o antilogaritmo desse valor para entender sua relação com o valor limitador da razão comum da função de sobrevivência.

Carl
fonte

Nesse caso (e muitas vezes em casos de interesse), a curtose mais alta corresponde à cauda mais pesada, mas, como proposição geral, esse não é o caso - é fácil construir contra-exemplos.

Glen_b

1. Não conheço nenhuma maneira geral de comparar diretamente as caudas. 2. O que é mais complicado? a resposta do whuber nos mostra por que há um problema em olhar para qualquer coisa, exceto a função de sobrevivente (para a cauda direita); ele discute por que você não pode comparar os PDFs em detalhes, mas pontos semelhantes são transferidos para a curtose. Além disso, comparar é frequentemente muito menos complicado do que comparar a curtose também. (Na cauda esquerda você comparar diretamente, mas que não foi um problema para esta pergunta.)

S (x) = 1 - F (x)

$S(x)=1-F(x)$

F (x)

$F(x)$

Glen_b

Também observo que você diz "Isso tem algo a ver com um teorema dos momentos que diz que se (todos?) Os momentos de duas distribuições são iguais, então as distribuições são idênticas". - mesmo que todos os momentos de duas distribuições sejam iguais, as distribuições não são necessariamente idênticas. Os contra-exemplos são discutidos em respostas a várias perguntas aqui no CV. Você precisa de mais do que todos os momentos iguais - é necessário que o MGF exista em uma vizinhança de 0.

Glen_b

@ PeterWestfall O suporte semi-infinito geralmente é assumido, por exemplo, como para concentrações de medicamentos no plasma sanguíneo. Nesse caso, o peso da cauda determinaria se o tempo médio de permanência da droga no corpo mede algo (por exemplo, distribuição exponencial) ou não (por exemplo, algumas distribuições de Pareto).

0 \leq t < \infty

$0\leq t< \infty$

Carl

@ PeterWestfall Eu entendo o seu ponto, semelhante a nma.berkeley.edu/ark:/28722/bk000471p7j . Cabe lembrar que toda distribuição implica medidas diferentes para coisas diferentes. Por exemplo, o valor extremo médio é MVUE para localização de uma distribuição uniforme, não a média e não a mediana. Entre esses valores extremos, as caudas são pesadas, mas fora delas, as caudas são zip. O que isso tem a ver com um momento mais alto como a curtose, quando o primeiro momento não é o MVUE, eu não ousaria adivinhar. Algo, talvez, mas o que?

Carl