A gama tem uma propriedade compartilhada pelo lognormal; ou seja, quando o parâmetro de forma é mantido constante enquanto o parâmetro de escala é variado (como geralmente é usado quando se usa qualquer um dos modelos), a variação é proporcional ao quadrado médio (coeficiente de variação constante).
Algo aproximado disso ocorre com bastante frequência com dados financeiros, ou mesmo com muitos outros tipos de dados.
Como resultado, geralmente é adequado para dados que são contínuos, positivos, inclinados para a direita e onde a variação é quase constante na escala de log, embora existam várias outras opções bem conhecidas (e geralmente disponíveis com facilidade) com aquelas propriedades.
Além disso, é comum ajustar um link de log com o gama GLM (é relativamente mais raro usar o link natural). O que o torna um pouco diferente da adaptação de um modelo linear normal aos registros dos dados é que, na escala de registros, a gama é deixada inclinada em graus variados, enquanto o normal (o registro de um lognormal) é simétrico. Isso o torna (a gama) útil em várias situações.
Eu já vi usos práticos para GLMs gama discutidos (com exemplos de dados reais) em (de cabeça para baixo ) de Jong & Heller e Frees , além de vários artigos; Eu também vi aplicações em outras áreas. Ah, e se bem me lembro, o MASS de Venables e Ripley o usa no absenteísmo escolar (os dados quine; Edit: acontece que está realmente em Complementos de Estatística do MASS , veja a p11, a 14ª página do pdf, tem um link de log, mas há uma pequena mudança do DV). McCullagh e Nelder fizeram um exemplo de coagulação do sangue, embora talvez tenha sido um elo natural.
Depois, há o livro de Faraway, onde ele fez um exemplo de seguro de carro e um exemplo de dados de fabricação de semicondutores.
Existem algumas vantagens e desvantagens em escolher uma das duas opções. Desde os dias de hoje, ambos são fáceis de encaixar; geralmente é uma questão de escolher o que é mais adequado.
Está longe de ser a única opção; por exemplo, também existem GLMs gaussianos inversos, que são mais inclinados / mais pesados (e ainda mais heterocedásticos) do que gama ou normal de log.
Quanto às desvantagens, é mais difícil fazer intervalos de previsão. Algumas telas de diagnóstico são mais difíceis de interpretar. As expectativas computacionais na escala do preditor linear (geralmente na escala logarítmica) são mais difíceis do que no modelo lognormal equivalente. Testes de hipóteses e intervalos geralmente são assintóticos. Estes são frequentemente problemas relativamente menores.
Possui algumas vantagens sobre a regressão lognormal log-link (pegando logs e ajustando um modelo de regressão linear comum); uma é que a previsão média é fácil.
Esta é uma boa pergunta. De fato, por que as pessoas não usam mais modelos lineares generalizados (GLM) também é uma boa pergunta.
Nota de aviso: Algumas pessoas usam o GLM para o modelo linear geral, não o que está em mente aqui.
Depende de onde você olha. Por exemplo, as distribuições gama são populares em várias ciências ambientais há algumas décadas e, portanto, modelar com variáveis preditoras também é uma extensão natural. Existem muitos exemplos em hidrologia e geomorfologia, para citar alguns campos nos quais me desviei.
É difícil definir quando usá-lo além de uma resposta vazia sempre que funciona melhor. Dados dados positivos distorcidos, muitas vezes me vejo tentando modelos gama e normais de log (no link de contexto do GLM, família normal ou gaussiana) e escolhendo qual funciona melhor.
A modelagem gama permaneceu bastante difícil de ser realizada até recentemente, certamente em comparação com digamos obter logs e aplicar regressões lineares, sem você mesmo escrever muito código. Mesmo agora, acho que não é igualmente fácil em todos os principais ambientes de software estatístico.
Ao explicar o que é usado e o que não é usado, apesar dos méritos e deméritos, acho que você sempre se refere exatamente aos tipos de fatores que identifica: o que é ensinado, o que está na literatura que as pessoas leem, o que as pessoas ouvem falar sobre. trabalho e em conferências. Então, você precisa de um tipo de sociologia amador da ciência para explicar. A maioria das pessoas parece seguir caminhos retos e estreitos dentro de seus próprios campos. Vagamente, quanto maior a literatura interna em qualquer campo sobre técnicas de modelagem, menos as pessoas inclinadas nesse campo parecem tentar algo diferente.
fonte
A regressão gama está no GLM e, portanto, você pode obter muitas quantidades úteis para fins de diagnóstico, como resíduos de desvio, alavancas, distância de Cook e assim por diante. Talvez eles não sejam tão bons quanto as quantidades correspondentes para dados transformados em log.
Uma coisa que a regressão gama evita em comparação com o lognormal é o viés de transformação. A desigualdade de Jensen implica que as previsões da regressão lognormal serão sistematicamente enviesadas porque está modelando dados transformados em vez do valor esperado transformado.
Além disso, a regressão gama (ou outros modelos para dados não negativos) pode lidar com uma matriz mais ampla de dados que o normal do log, devido ao fato de que ele pode ter um modo em 0, como o da distribuição exponencial, que está na gama. família, o que é impossível para o lognormal.
Eu li sugestões de que o uso da probabilidade de Poisson como quase-probabilidade é mais estável. Eles são conjugados um do outro. O quase-Poisson também tem o benefício substancial de ser capaz de lidar com valores exatos de 0, o que incomoda tanto a gama quanto, principalmente, o lognormal.
fonte
Na minha opinião, assume que os erros estão em uma família de distribuições gama, com as mesmas formas e com as escalas mudando de acordo com a fórmula relacionada.
Mas é difícil fazer o diagnóstico do modelo. Observe que o gráfico QQ simples não é adequado aqui, porque é sobre a mesma distribuição, enquanto a nossa é uma família de distribuições com diferentes variações.
Ingenuamente, o gráfico de resíduos pode ser usado para ver que eles têm escalas diferentes, mas com a mesma forma, geralmente com caudas longas.
Na minha experiência, o gamma GLM pode ser experimentado por alguns problemas distribuídos de cauda longa, e é amplamente usado nos setores de seguros e meio ambiente etc. argumentam para usar outras distribuições familiares com o mesmo problema, como gaussiano inverso, etc. Na prática, parece que essas escolhas dependem do julgamento de especialistas com a experiência industrial. Isso limita o uso do gama GLM.
fonte