Gamma GLM vinculado a log vs GLM Gaussiano vinculado a log vs LM transformado por log

12

Pelos meus resultados, parece que o GLM Gamma atende à maioria das suposições, mas vale a pena melhorar o LM transformado em log? A maioria das publicações que encontrei trata de Poisson ou GLMs binomiais. Achei o artigo AVALIAÇÃO DE SUPOSIÇÕES GERAIS DE MODELOS LINEARES USANDO A RANDOMIZAÇÃO muito útil, mas faltam os gráficos reais usados ​​para tomar uma decisão. Espero que alguém com experiência possa me apontar na direção certa.

Quero modelar a distribuição da minha variável de resposta T, cuja distribuição é plotada abaixo. Como você pode ver, é assimetria positiva:
XHTML válido.

Eu tenho dois fatores categóricos a considerar: METH e CASEPART.
Observe que este estudo é principalmente exploratório, essencialmente servindo como um estudo piloto antes de teorizar um modelo e executar DoE em torno dele.

Eu tenho os seguintes modelos em R, com seus gráficos de diagnóstico:

LM.LOG<-lm(log10(T)~factor(METH)+factor(CASEPART),data=tdat)

XHTML válido
XHTML válido

GLM.GAMMA<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="Gamma"(link='log'))

XHTML válido
XHTML válido

GLM.GAUS<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="gaussian"(link='log'))

XHTML válido
XHTML válido

Também atingi os seguintes valores de P pelo teste de Shapiro-Wilks em resíduos:

LM.LOG: 2.347e-11  
GLM.GAMMA: 0.6288  
GLM.GAUS:  0.6288  

Calculei os valores de AIC e BIC, mas, se estiver correto, eles não me dizem muito devido a diferentes famílias nos GLMs / LM.

Também observei os valores extremos, mas não posso classificá-los como outliers, pois não há uma "causa especial" clara.

TLJ
fonte
1
Vale a pena notar que todos os três modelos são multiplicativos no sentido de que um aumento em um regressor está associado a uma mudança relativa na resposta típica. Para os dois GLMs log-lineares, "típico" significa média aritmética, enquanto que para o LM transformado por log estamos falando de médias geométricas. Assim, a maneira como você deseja interpretar efeitos e previsões também é um fator determinante para a escolha do modelo, além de ter gráficos residuais perfeitos (esses dados são direcionados de qualquer maneira).
Michael M
@ MichaelMayer - Obrigado pela resposta, muito útil. Você poderia expandir um pouco exatamente como a escolha afeta a interpretação? Ou me aponte na direção de uma referência?
TLJ
@ Marcinthebox- Eu olhei essa pergunta antes de postar. Não responde exatamente à minha pergunta de forma muito concisa.
TLJ 25/11

Respostas:

18

Bem, claramente o ajuste log-linear ao gaussiano é inadequado; há forte heterocedasticidade nos resíduos. Então, vamos levar isso em consideração.

O que resta é lognormal vs gama.

T

Qualquer um dos modelos parece igualmente adequado nesse caso. Ambos têm variação proporcional ao quadrado da média, portanto, o padrão de propagação em resíduos contra o ajuste é semelhante.

Um outlier baixo se encaixa um pouco melhor com uma gama do que com um lognormal (vice-versa para um outlier alto). Em uma determinada média e variância, o lognormal é mais inclinado e possui um coeficiente de variação mais alto.

exp(μ)σ2

Veja também aqui e aqui algumas discussões relacionadas.

Glen_b -Reinstate Monica
fonte
1
@Gleb_b esta resposta é muito útil para minha análise. Eu tenho algumas perguntas. (1) Primeiro, é este 'Ambos têm variação proporcional ao quadrado da média ...' com base no gráfico residual vs ajustado? (2) E é este 'Um outlier baixo se encaixará um pouco melhor com uma gama ... Em uma determinada média e variância, ...' com base no gráfico qq? (3) Pelo que entendi, glm (por exemplo, gama, poisson e binômio negativo) não tem a suposição de normalidade dos resíduos e homogeneidade de variância. Em caso afirmativo, por que a plotagem de resíduos versus a plotagem qq normal e adequada seria relevante para o diagnóstico?
tatami
2
Isso é extenso o suficiente para ser uma pergunta totalmente nova, ou mesmo várias (1 das quais já foram respondidas no nosso site!) - 1. parte do modelo. 2. Não, esses são fatos gerais sobre as distribuições. 3. Correto, eles não são normais, no entanto, os resíduos usados ​​no gráfico de QQ são resíduos de desvio (estudados internamente) que - particularmente no caso gama - geralmente tendem a estar muito próximos do normalmente distribuído (escrevi uma resposta explicando o porquê em algum ponto) e deve ter uma variação essencialmente constante. Algum desvio da normalidade não é inesperado, mas um desvio substancial ...
ctd
2
ctd ... da normalidade (supondo que as outras parcelas estejam corretas) pode indicar um problema com a suposição distributiva.
Glen_b -Reinstala Monica 10/10