(Isso se baseia em uma pergunta que acabei de chegar por e-mail; adicionamos algum contexto de uma breve conversa anterior com a mesma pessoa.)
No ano passado, disseram-me que a distribuição gama é mais pesada que a lognormal, e desde então me disseram que não é o caso.
Qual é a cauda mais pesada?
Quais são alguns recursos que posso usar para explorar o relacionamento?
Respostas:
A cauda (direita) de uma distribuição descreve seu comportamento em grandes valores. O objecto correcto para estudo não é a sua densidade - que, em muitos casos práticos não existe - mas sim a sua função de distribuiçãoF . Mais especificamente, como F deve subir assintoticamente para 1 para grandes argumentos x (pela Lei da Probabilidade Total), estamos interessados em quão rapidamente ela se aproxima dessa assíntota: precisamos investigar o comportamento de sua função de sobrevivência 1−F(x) como x→∞ .
A curva vermelha nesta figura é a função de sobrevivência para uma distribuição de Poisson . A curva azul é para uma distribuição gama , que tem a mesma variação. Eventualmente, a curva azul sempre excede a curva vermelha, mostrando que essa distribuição gama tem uma cauda mais pesada que a distribuição Poisson. Essas distribuições não podem ser facilmente comparadas usando densidades, porque a distribuição de Poisson não tem densidade.(3) (3)
É verdade que, quando as densidades e existir e para então é mais pesado do que caudas . No entanto, o inverso é falso - e esse é um motivo convincente para basear a definição de peso da cauda nas funções de sobrevivência, e não nas densidades, mesmo que frequentemente a análise das caudas possa ser mais facilmente realizada usando as densidades.f g f(x)>g(x) x>x0 F G
Contra-exemplos podem ser construídos usando uma distribuição discreta de suporte ilimitado positivo que, no entanto, não é mais pesado que (discretizar fará o truque). Transforme isso em uma distribuição contínua, substituindo a massa de probabilidade de em cada um dos pontos de suporte , escritos , por (digamos) uma distribuição Beta escala com suporte em um intervalo adequado e ponderado por . Dado um pequeno número positivo escolhaH G G H k h(k) (2,2) [k−ε(k),k+ε(k)] h(k) δ, ε(k) suficientemente pequeno para garantir que o pico de densidade dessa distribuição Beta em escala exceda . Por construção, a mistura é uma distribuição contínua cuja cauda se parece com a de (é uniformemente um pouco menor em quantidade ), mas tem picos em sua densidade no suporte de e todos esses espigões têm pontos em que excedem a densidade de . Assim é mais leve de cauda do que , mas não importa o quão longe na cauda vamos haverá pontos onde a sua densidade excede o de .f(k)/δ δH+(1−δ)G G′ G δ H f G′ F F
A curva vermelha é o PDF de uma distribuição gama , a curva de ouro é o PDF de uma distribuição lognormal , e a curva azul (com espinhos) é o PDF de uma mistura construída como no contra-exemplo. (Observe o eixo da densidade logarítmica.) A função de sobrevivência de é próxima à de uma distribuição Gamma (com oscilações em decadência rápida): ela eventualmente crescerá menos que a de , mesmo que seu PDF sempre aumente acima dela. de não importa a que distância caíssemos.G F G′ G′ F F
Discussão
Aliás, podemos realizar essa análise diretamente nas funções de sobrevivência das distribuições lognormal e gama, expandindo-as em torno de para encontrar seu comportamento assintótico e concluir que todos os lognormals têm caudas mais pesadas do que todos os gama. Porém, como essas distribuições têm densidades "agradáveis", a análise é mais facilmente realizada mostrando que para suficientemente grande , uma densidade lognormal excede uma densidade Gamma. No entanto, não confundamos essa conveniência analítica com o significado de uma cauda pesada.x=∞ x
Da mesma forma, embora momentos mais altos e suas variantes (como assimetria e curtose) digam um pouco sobre as caudas, eles não fornecem informações suficientes. Como um exemplo simples, podemos truncar qualquer distribuição lognormal com um valor tão grande que um determinado número de momentos dificilmente mude - mas, ao fazê-lo, removeremos completamente a cauda, tornando-a mais clara do que qualquer distribuição com limites ilimitados. suporte (como um Gamma).
Uma objeção justa a essas contorções matemáticas seria apontar que o comportamento até o momento não tem aplicação prática, porque ninguém jamais acreditaria que qualquer modelo distributivo será válido com valores tão extremos (talvez fisicamente inatingíveis). Isso mostra, no entanto, que em aplicações devemos ter cuidado para identificar qual parte da cauda é preocupante e analisá-la de acordo. (Os tempos de recorrência de inundações, por exemplo, podem ser entendidos neste sentido: inundações de 10 anos, inundações de 100 anos e inundações de 1000 anos caracterizam seções específicas da cauda da distribuição de inundações.) Os mesmos princípios se aplicam, porém: O objeto fundamental da análise aqui é a função de distribuição e não a sua densidade.
fonte
A gama e o lognormal são ambos os desvios certos, distribuições de coeficiente de variação constante em , e muitas vezes são a base de modelos "concorrentes" para tipos específicos de fenômenos.(0,∞)
Existem várias maneiras de definir o peso de uma cauda, mas, neste caso, acho que todas as usuais mostram que o lognormal é mais pesado. (O que a primeira pessoa pode estar falando é sobre o que acontece não na extremidade oposta, mas um pouco à direita do modo (digamos, em torno do 75º percentil no primeiro gráfico abaixo, que para o lognormal está logo abaixo de 5 e a gama logo acima de 5.)
No entanto, vamos apenas explorar a questão de uma maneira muito simples para começar.
Abaixo estão as densidades gama e lognormal com média 4 e variância 4 (plotagem superior - gama é verde escuro, lognormal é azul) e, em seguida, o log da densidade (inferior), para que você possa comparar as tendências nas caudas:
É difícil ver muitos detalhes no gráfico superior, porque toda a ação está à direita de 10. Mas é bem claro no segundo gráfico, onde a gama está descendo muito mais rapidamente do que o lognormal.
Outra maneira de explorar o relacionamento é observar a densidade dos logs, como na resposta aqui ; vemos que a densidade dos logs para o lognormal é simétrica (é normal!) e que para a gama é inclinada para a esquerda, com um rabo leve à direita.
Podemos fazer isso algebricamente, onde podemos observar a razão de densidades como (ou o logaritmo da razão). Seja uma densidade gama log normal:x→∞ g f
O termo em [] é quadrático em , enquanto o termo restante está diminuindo linearmente em . Não importa o que, esse acabe diminuindo mais rapidamente do que o aumento quadrático, independentemente dos valores dos parâmetros . No limite de , o log da razão de densidades está diminuindo em direção a , o que significa que o pdf gama é eventualmente muito menor que o pdf lognormal, e continua diminuindo relativamente. Se você considerar a proporção de outra maneira (com lognormal na parte superior), ela deverá aumentar além de qualquer limite.log(x) x −x/β x→∞ −∞
Ou seja, qualquer lognormal dado é eventualmente mais pesado do que qualquer gama.
Outras definições de peso:
Algumas pessoas estão interessadas em assimetria ou curtose para medir o peso da cauda direita. Em um dado coeficiente de variação, o lognormal é mais inclinado e possui curtose maior que a gama . **
Por exemplo, com assimetria , a gama tem uma assimetria de 2CV enquanto a lognormal é 3CV + CV .3
Existem algumas definições técnicas de várias medidas de quão pesadas as caudas estão aqui . Você pode tentar algumas dessas com essas duas distribuições. O lognormal é um caso especial interessante na primeira definição - todos os seus momentos existem, mas o MGF não converge acima de 0, enquanto o MGF do Gamma converge em uma vizinhança em torno de zero.
-
** Como Nick Cox menciona abaixo, a transformação usual para aproximar a normalidade da gama, a transformação Wilson-Hilferty, é mais fraca que o log - é uma transformação na raiz do cubo. Em pequenos valores do parâmetro shape, a quarta raiz foi mencionada. Em vez disso, veja a discussão nesta resposta , mas em ambos os casos é uma transformação mais fraca para atingir quase a normalidade.
A comparação de assimetria (ou curtose) não sugere nenhuma relação necessária no extremo extremo - ela nos diz algo sobre o comportamento médio; mas, por esse motivo, pode funcionar melhor se o argumento original não estiver sendo feito sobre a cauda extrema.
Recursos : É fácil usar programas como R ou Minitab ou Matlab ou Excel ou o que você quiser para desenhar densidades e densidades de log e logs de proporções de densidades ... e assim por diante, para ver como as coisas acontecem em casos específicos. É com isso que eu sugiro começar.
fonte
Embora a curtose esteja relacionada ao peso das caudas, ela contribuiria mais para a noção de distribuição de cauda de gordura e, relativamente, para a própria cauda, como mostra o exemplo a seguir. Nisto, agora regurgito o que aprendi nos posts acima e abaixo, que são realmente excelentes comentários. Primeiro, a área de uma cauda direita é a área de x a de uma função de densidade , também conhecida como função de sobrevivência, . Para a distribuição normal do e a distribuição gama∞ f(x) 1−F(t) e−(log(x)−μ)22σ22π√σx;x≥0 βαxα−1e−βxΓ(α);x≥0 , vamos comparar suas respectivas funções de sobrevivência e graficamente. Para fazer isso, defini arbitrariamente suas respectivas variações e , bem como seus respectivos excessos kurtoses e igual escolhendo e resolvido para . Isso mostra12erfc(log(x)−μ2√σ) Q(α,βx)=Γ(α,βx)Γ(α) (eσ2−1)e2μ+σ2 αβ2 3e2σ2+2e3σ2+e4σ2−6 6α μ=0,σ=0.8 α→0.19128,β→0.335421
a função de sobrevivência para a distribuição lognormal (LND) em azul e a distribuição gama (GD) em laranja. Isso nos leva à nossa primeira cautela. Ou seja, se esse gráfico fosse tudo o que devíamos examinar, poderíamos concluir que a cauda para GD é mais pesada que para LND. Como esse não é o caso, é mostrado estendendo os valores do eixo x do gráfico,
Este gráfico mostra que 1) mesmo com kurtoses iguais, as áreas da cauda direita de LND e GD podem diferir. 2) Essa interpretação gráfica sozinha tem seus perigos, pois só pode exibir resultados para valores de parâmetros fixos em um intervalo limitado. Portanto, é necessário encontrar expressões gerais para a taxa de função de sobrevivência limitante de . Não consegui fazer isso com infinitas expansões em série. No entanto, eu pude fazer isso usando o intermediário de funções terminais ou assintóticas, que não são funções únicas e, onde, para a direita, caudas é suficiente para elimx→∞S(LND,x)S(GD,x) limx→∞F(x)G(x)=1 F(x) G(x) ser mutuamente assintóticos. Com o cuidado apropriado para encontrar essas funções, isso tem o potencial de identificar um subconjunto de funções mais simples que as próprias funções de sobrevivência, que podem ser compartilhadas ou mantidas em comum com mais de uma função de densidade; por exemplo, duas funções de densidade diferentes podem compartilhar uma cauda exponencial limitante. Na versão anterior deste post, era a isso que eu estava me referindo como a "complexidade adicional de comparar funções de sobrevivência". Observe que, e (aliás e não necessariamente elimu→∞erfc(u)e−u2π√u=1 limu→∞Γ(α,u)e−uuα−1=1 erfc(u)<e−u2π√u Γ(α,u)<e−uuα−1 . Ou seja, não é necessário escolher um limite superior, apenas uma função assintótica). Aqui escrevemos e que a proporção dos termos da mão direita tem o mesmo limite de como os termos da mão esquerda. A simplificação da taxa limite dos termos da mão direita produz12erfc(log(x)−μ2√σ)<e−(log(x)−μ2√σ)22(π√(log(x)−μ))2√σ Γ(α,βx)Γ(α)<e−βx(βx)α−1Γ(α) x→∞ limx→∞σΓ(α)(βx)1−αeβx−(μ−log(x))22σ22π√(log(x)−μ)=∞ o que significa que para x suficientemente grande, a área da cauda LND é tão grande quanto gostamos em comparação com a área da cauda GD, independentemente dos valores dos parâmetros. Isso traz outro problema: nem sempre temos soluções verdadeiras para todos os valores de parâmetros; portanto, usar apenas ilustrações gráficas pode ser enganoso. Por exemplo, a área da cauda direita da distribuição gama é maior que a área da cauda exponencial quando , menor que a exponencial quando e o GD é exatamente uma distribuição exponencial quando .α<1 α>1 α=1
Qual é então a utilidade de obter os logaritmos da razão das funções de sobrevivência, já que obviamente não precisamos de logaritmos para encontrar uma razão limitante? Muitas funções de distribuição contêm termos exponenciais que parecem mais simples quando o logaritmo é obtido e, se a proporção chegar ao infinito no limite, à medida que x aumenta, o logaritmo também o fará. No nosso caso, isso nos permitiria inspecionar , que algumas pessoas considerariam mais simples de se olhar. Por fim, se a taxa de funções de sobrevivência for zero, o logaritmo dessa taxa irá para-∞limx→∞(log(σΓ(α)(βx)1−α2π√(log(x)−μ))+βx−(μ−log(x))22σ2)=∞ −∞ e, em todos os casos, depois de encontrar o limite de um logaritmo de uma razão, precisamos usar o antilogaritmo desse valor para entender sua relação com o valor limitador da razão comum da função de sobrevivência.
fonte