Pelos meus resultados, parece que o GLM Gamma atende à maioria das suposições, mas vale a pena melhorar o LM transformado em log? A maioria das publicações que encontrei trata de Poisson ou GLMs binomiais. Achei o artigo AVALIAÇÃO DE SUPOSIÇÕES GERAIS DE MODELOS LINEARES USANDO A RANDOMIZAÇÃO muito útil, mas faltam os gráficos reais usados para tomar uma decisão. Espero que alguém com experiência possa me apontar na direção certa.
Quero modelar a distribuição da minha variável de resposta T, cuja distribuição é plotada abaixo. Como você pode ver, é assimetria positiva:
.
Eu tenho dois fatores categóricos a considerar: METH e CASEPART.
Observe que este estudo é principalmente exploratório, essencialmente servindo como um estudo piloto antes de teorizar um modelo e executar DoE em torno dele.
Eu tenho os seguintes modelos em R, com seus gráficos de diagnóstico:
LM.LOG<-lm(log10(T)~factor(METH)+factor(CASEPART),data=tdat)
GLM.GAMMA<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="Gamma"(link='log'))
GLM.GAUS<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="gaussian"(link='log'))
Também atingi os seguintes valores de P pelo teste de Shapiro-Wilks em resíduos:
LM.LOG: 2.347e-11
GLM.GAMMA: 0.6288
GLM.GAUS: 0.6288
Calculei os valores de AIC e BIC, mas, se estiver correto, eles não me dizem muito devido a diferentes famílias nos GLMs / LM.
Também observei os valores extremos, mas não posso classificá-los como outliers, pois não há uma "causa especial" clara.
Respostas:
Bem, claramente o ajuste log-linear ao gaussiano é inadequado; há forte heterocedasticidade nos resíduos. Então, vamos levar isso em consideração.
O que resta é lognormal vs gama.
Qualquer um dos modelos parece igualmente adequado nesse caso. Ambos têm variação proporcional ao quadrado da média, portanto, o padrão de propagação em resíduos contra o ajuste é semelhante.
Um outlier baixo se encaixa um pouco melhor com uma gama do que com um lognormal (vice-versa para um outlier alto). Em uma determinada média e variância, o lognormal é mais inclinado e possui um coeficiente de variação mais alto.
Veja também aqui e aqui algumas discussões relacionadas.
fonte