Diagnósticos para modelos lineares generalizados (mistos) (especificamente resíduos)

25

Atualmente, estou lutando para encontrar o modelo certo para dados de contagem difícil (variável dependente). Eu tentei vários modelos diferentes (modelos de efeitos mistos são necessários para o meu tipo de dados) como lmere lme4(com uma transformação de log), bem como modelos de efeitos mistos lineares generalizados com várias famílias, como gaussiana ou binomial negativa.

No entanto, não tenho certeza de como diagnosticar corretamente os ajustes resultantes. Encontrei muitas opiniões diferentes sobre esse tópico na Web. Penso que o diagnóstico de regressão linear (mista) é bastante direto. Você pode analisar os resíduos (normalidade) e estudar a heterocedasticidade plotando valores ajustados em comparação com os resíduos.

No entanto, como você faz isso corretamente para a versão generalizada? Vamos nos concentrar em uma regressão binomial negativa (mista) por enquanto. Eu já vi declarações bastante opostas sobre os resíduos aqui:

  1. Ao verificar os resíduos quanto à normalidade em modelos lineares generalizados , é indicado na primeira resposta que os resíduos simples não são normalmente distribuídos para um GLM; Eu acho que isso está claro. No entanto, salienta-se que os resíduos de Pearson e de desvio também não devem ser normais. No entanto, a segunda resposta afirma que os resíduos de desvio devem ser normalmente distribuídos (combinados com uma referência).

  2. Entretanto, os resíduos de desvio que devem ser normalmente distribuídos são sugeridos na documentação para ? Glm.diag.plots (do bootpacote R ).

  3. Em este post , o autor estudou primeiro normalidade do que eu assumo são resíduos de Pearson para um modelo de regressão de efeitos mistos NB. Como esperado (na minha opinião sincera), os resíduos não se mostraram normais e o autor assumiu que este modelo era um ajuste inadequado. No entanto, conforme declarado nos comentários, os resíduos devem ser distribuídos de acordo com uma distribuição binomial negativa. Na minha opinião, isso se aproxima mais da verdade, pois os resíduos do GLM podem ter outras distribuições além da normal. Isso está correto? Como verificar aqui coisas como heterocedasticidade?

  4. O último ponto (plotagem de resíduos contra quantis da distribuição estimada) é enfatizado em Ben & Yohai (2004) . Atualmente, este parece o caminho a seguir para mim.

Em poucas palavras: como você estuda adequadamente os ajustes de modelo de modelos de regressão linear generalizada (mista) especificamente com foco em resíduos?

fsociety
fonte
11
Os resíduos para GLMs geralmente não são normais (consulte aqui ), mas observe que existem muitos tipos de resíduos para GLMs. Por exemplo, glm.diag.plotsdiz que é para jackknifed residual desvio (Eu suspeito que essa distinção é importante). Além disso, eu acho que você tem dados de contagem ; você pode querer se concentrar nesse fato. Por exemplo, as contagens devem (em algum sentido) ser heterocedásticas. Gráficos de diagnóstico para regressão de contagem devem ser úteis para você (embora não aborde o aspecto dos efeitos mistos).
gung - Restabelece Monica
Eu estou familiarizado com o post que você mencionou. No entanto, há também uma declaração que sugere que os resíduos (desvio) devem ser normais "vemos resíduos muito grandes e um desvio substancial dos resíduos desvio do normal (todos falando contra o Poisson)".
Fsociety

Respostas:

18

Essa resposta não se baseia no meu conhecimento, mas cita o que Bolker et al. (2009) escreveram em um artigo influente na revista Trends in Ecology and Evolution . Como o artigo não é de acesso aberto (embora a pesquisa no Google Scholar possa ser bem-sucedida, pensei em citar trechos importantes que podem ser úteis para abordar partes das perguntas. Então, novamente, não foi o que descobri, mas acho que representa a melhor informação condensada sobre GLMMs (incluindo diagnósticos) por aí, em um estilo de escrita muito direto e fácil de entender.Se, por qualquer meio, essa resposta não for adequada por qualquer motivo, eu simplesmente a excluirei. útil no que diz respeito a perguntas relacionadas ao diagnóstico são destacadas emnegrito .

Page 127:

Pesquisadores confrontados com dados não-normais geralmente tentam atalhos, como transformar dados para alcançar a normalidade e homogeneidade de variância, usando testes não paramétricos ou contando com a robustez da ANOVA clássica à não-normalidade para projetos balanceados [15]. Eles podem ignorar completamente os efeitos aleatórios (comprometendo assim a pseudo-replicação) ou tratá-los como fatores fixos [16]. No entanto, esses atalhos podem falhar (por exemplo, dados de contagem com muitos valores zero não podem ser tornados normais por transformação). Mesmo quando são bem-sucedidos, podem violar suposições estatísticas (mesmo testes não paramétricos fazem suposições, por exemplo, de homogeneidade de variância entre grupos) ou limitar o escopo de inferência (não se pode extrapolar estimativas de efeitos fixos para novos grupos). Em vez de colocar seus dados em estruturas estatísticas clássicas, os pesquisadores devem usar abordagens estatísticas que correspondam aos seus dados. Modelos mistos lineares generalizados (GLMMs) combinam as propriedades de duas estruturas estatísticas amplamente usadas em ecologia e evolução, modelos lineares mistos (que incorporam efeitos aleatórios) e modelos lineares generalizados (que manipulam dados não-normais usando funções de link e família exponencial [por exemplo, distribuição normal, Poisson ou binomial]). Os GLMMs são a melhor ferramenta para analisar dados não normais que envolvem efeitos aleatórios: tudo o que se deve fazer, em princípio, é especificar uma distribuição, função de link e estrutura dos efeitos aleatórios. modelos mistos lineares (que incorporam efeitos aleatórios) e modelos lineares generalizados (que lidam com dados não-normais usando funções de link e distribuições de família exponencial [por exemplo, normal, Poisson ou binomial]). Os GLMMs são a melhor ferramenta para analisar dados não normais que envolvem efeitos aleatórios: tudo o que se deve fazer, em princípio, é especificar uma distribuição, função de link e estrutura dos efeitos aleatórios. modelos mistos lineares (que incorporam efeitos aleatórios) e modelos lineares generalizados (que lidam com dados não-normais usando funções de link e distribuições de família exponencial [por exemplo, normal, Poisson ou binomial]). Os GLMMs são a melhor ferramenta para analisar dados não-normais que envolvem efeitos aleatórios: tudo o que se deve fazer, em princípio, é especificar uma distribuição, função de link e estrutura dos efeitos aleatórios.

Página 129, Caixa 1:

Os resíduos indicaram super-dispersão , por isso, reajustamos os dados com um modelo quase-Poisson. Apesar do grande parâmetro de escala estimado (10.8), os gráficos exploratórios não encontraram evidências de valores discrepantes no nível de indivíduos, genótipos ou populações. Utilizamos quase-AIC (QAIC), usando um grau de liberdade para efeitos aleatórios [49], para efeitos aleatórios e, em seguida, para seleção de modelos de efeito fixo.

Page 133, Caixa 4:

Aqui, descrevemos uma estrutura geral para a construção de um modelo completo (mais complexo), o primeiro passo na análise do GLMM. Após esse processo, é possível avaliar parâmetros e comparar submodelos, conforme descrito no texto principal e na Figura 1.

  1. Especifique efeitos fixos (tratamentos ou covariáveis) e aleatórios (blocos experimentais, espaciais ou temporais, indivíduos, etc.). Inclua apenas interações importantes. Restrinja o modelo a priori a um nível viável de complexidade, com base em regras práticas (> 5–6 níveis de efeito aleatório por efeito aleatório e> 10-20 amostras por nível de tratamento ou unidade experimental) e conhecimento de tamanhos de amostra adequados obtidos estudos anteriores [64,65].

  2. Escolha uma função de distribuição e link de erro (por exemplo, distribuição Poisson e link de log para dados de contagem, distribuição binomial e link de logit para dados de proporção).

  3. Verificação gráfica : as variações de dados (transformadas pela função de link) são homogêneas entre as categorias? As respostas dos dados transformados são lineares em relação aos preditores contínuos? Existem indivíduos ou grupos discrepantes? As distribuições dentro dos grupos correspondem à distribuição assumida?

  4. Ajuste GLMs de efeito fixo no conjunto de dados completo (em pool) e dentro de cada nível dos fatores aleatórios [28,50]. Os parâmetros estimados devem ser distribuídos aproximadamente normalmente entre os grupos (os parâmetros no nível do grupo podem ter grandes incertezas, especialmente para grupos com amostras pequenas). Ajuste o modelo conforme necessário (por exemplo, altere a função do link ou adicione covariáveis).

  5. Coloque o GLMM completo. Memória insuficiente do computador ou muito lenta: reduza a complexidade do modelo. Se a estimativa tiver êxito em um subconjunto dos dados, tente um algoritmo de estimativa mais eficiente (por exemplo, PQL, se apropriado). Falha na convergência (avisos ou erros): reduza a complexidade do modelo ou altere as configurações de otimização (verifique se as respostas resultantes fazem sentido). Tente outros algoritmos de estimativa. Componentes de variação zero ou singularidade (avisos ou erros): verifique se o modelo está definido e identificável adequadamente (ou seja, todos os componentes podem ser estimados em teoria). Reduza a complexidade do modelo. Adicionar informações ao modelo (covariáveis ​​adicionais ou novos agrupamentos para efeitos aleatórios) pode aliviar problemas, assim como centrar as covariáveis ​​contínuas subtraindo sua média [50]. Se necessário, elimine efeitos aleatórios do modelo completo, descartar (i) termos de interesse biológico menos intrínseco, (ii) termos com variações estimadas muito pequenas e / ou grande incerteza, ou (iii) termos de interação. (Erros de convergência ou variações zero podem indicar dados insuficientes.)

  6. χ2

Os gráficos de resíduos devem ser usados ​​para avaliar a super-dispersão e as variações transformadas devem ser homogêneas entre as categorias. Em nenhum lugar do artigo foi mencionado que os resíduos devam ser normalmente distribuídos.

Penso que a razão pela qual existem declarações contrastantes reflete que os GLMMs (página 127-128) ...

... são surpreendentemente difíceis de usar, mesmo para estatísticos. Embora vários pacotes de software possam lidar com GLMMs (Tabela 1), poucos ecologistas e biólogos evolucionistas estão cientes do leque de opções ou das possíveis armadilhas. Ao revisar artigos sobre ecologia e evolução desde 2005, encontrados pelo Google Scholar, 311 das 537 análises do GLMM (58%) usaram essas ferramentas de forma inadequada de alguma forma (consulte o material suplementar on-line).

E aqui estão alguns exemplos completos usando GLMMs, incluindo diagnósticos.

Sei que essa resposta é mais como um comentário e deve ser tratada como tal. Mas a seção de comentários não me permite adicionar um comentário tão longo. Além disso, como acredito que este artigo é valioso para esta discussão (mas infelizmente por trás de um muro de pagamentos), pensei que seria útil citar passagens importantes aqui.

Trabalhos citados:

[15] - GP Quinn, MJ Keough (2002): Projeto Experimental e Análise de Dados para Biólogos, Cambridge University Press.

[16] - MJ Crawley (2002): Computação Estatística: Uma Introdução à Análise de Dados Utilizando S-PLUS, John Wiley & Sons.

[28] - JC Pinheiro, DM Bates (2000): Modelos de Efeitos Mistos em S e S-PLUS, Springer.

[49] - F. Vaida, S. Blanchard (2005): informações condicionais de Akaike para modelos de efeitos mistos. Biometrika, 92, pp. 351–370.

[50] - A. Gelman, J. Hill (2006): Análise de Dados Utilizando Modelos de Regressão e Multinível / Hierárquicos, Cambridge University Press.

[64] - NJ Gotelli, AM Ellison (2004): Uma cartilha de estatísticas ecológicas, Sinauer Associates.

[65] - FJ Harrell (2001): Estratégias de Modelagem de Regressão, Springer.

[66] - JK Lindsey (1997): Aplicando Modelos Lineares Generalizados, Springer.

[67] - W. Venables, BD Ripley (2002): Estatística Moderna Aplicada com S, Springer.

Stefan
fonte
Obrigado, isso é realmente útil, eu sabia sobre os exemplos de codificação de Bolker, mas de alguma forma não o artigo real. O que ainda me pergunto é como a verificação gráfica se aplica a dados de larga escala com milhares de grupos. Os poucos artigos (como esse) que tentam fornecer algumas diretrizes sobre como verificar corretamente seus modelos, todos se aplicam apenas a dados em escala muito pequena. Então, é muito mais fácil escolher, por exemplo, os grupos e visualizar algo. Eu realmente acho que uma boa contribuição científica pode ser feita se alguém passar por um exemplo mais complexo no futuro.
Fsociety
11
Estou feliz que isso tenha sido útil! Eu acho que os exemplos apresentados já são bastante complexos (pelo menos para mim). Eu acho que o maior problema é que conjuntos de dados maiores e modelos mais complexos podem se tornar computacionalmente inviáveis, como mencionado no texto: "[...] para encontrar estimativas de ML, é preciso integrar as probabilidades em todos os valores possíveis dos efeitos aleatórios. Para GLMMs esse cálculo é, na melhor das hipóteses, lento e na pior (por exemplo, para grandes números de efeitos aleatórios) computacionalmente inviável ". O que eu acho incrível, porém, e o que deve ser lembrado, é que estamos usando ferramentas que estão sob pesquisa ativa!
Stefan
9

Esta é uma pergunta antiga, mas achei que seria útil acrescentar que a opção 4 sugerida pelo OP está agora disponível no pacote DHARMa R (disponível no CRAN, veja aqui ).

O pacote torna as verificações residuais visuais sugeridas pela resposta aceita muito mais confiáveis ​​/ fáceis.

Na descrição do pacote:

O pacote DHARMa usa uma abordagem baseada em simulação para criar resíduos dimensionados prontamente interpretáveis ​​a partir de modelos mistos lineares generalizados ajustados. Atualmente, são suportadas todas as classes 'merMod' das classes 'lme4' ('lmerMod', 'glmerMod'), 'glm' (incluindo 'negbin' de 'MASS', mas excluindo quase distribuições) e 'lm'. Como alternativa, simulações criadas externamente, por exemplo, simulações preditivas posteriores de software bayesiano, como 'JAGS', 'STAN' ou 'BUGS', também podem ser processadas. Os resíduos resultantes são padronizados para valores entre 0 e 1 e podem ser interpretados tão intuitivamente quanto os resíduos de uma regressão linear. O pacote também fornece várias funções de plotagem e teste para problemas típicos de má especificação do modelo,

Florian Hartig
fonte
11
Muito bom complemento para esta discussão!
Stefan