Eu tenho dados de coleta de longo prazo e gostaria de testar se o número de animais coletados é influenciado pelos efeitos climáticos. Meu modelo se parece abaixo:
glmer(SumOfCatch ~ I(pc.act.1^2) +I(pc.act.2^2) + I(pc.may.1^2) + I(pc.may.2^2) +
SampSize + as.factor(samp.prog) + (1|year/month),
control=glmerControl(optimizer="bobyqa", optCtrl=list(maxfun=1e9,npt=5)),
family="poisson", data=a2)
Explicação das variáveis utilizadas:
- SumOfCatch: número de animais coletados
- pc.act.1, pc.act.2: eixos de um componente principal que representam as condições climáticas durante a amostragem
- pc.may.1, pc.may.2: eixos de um PC representando as condições meteorológicas em maio
- SampSize: número de armadilhas de interceptação ou coleta de transectos de comprimentos padrão
- samp.prog: método de amostragem
- ano: ano da amostragem (de 1993 a 2002)
- mês: mês da amostragem (de agosto a novembro)
Os resíduos do modelo ajustado mostram considerável heterogeneidade (heterocedasticidade?) Quando plotados em relação aos valores ajustados (ver Fig.1):
Minha principal pergunta é: esse é um problema que torna questionável a confiabilidade do meu modelo? Nesse caso, o que posso fazer para resolvê-lo?
Até agora, tentei o seguinte:
- controle de sobredispersão, definindo efeitos aleatórios no nível de observação, ou seja, usando um ID exclusivo para cada observação e aplicando essa variável de ID como efeito aleatório; embora meus dados mostrem uma excessiva dispersão considerável, isso não ajudou, pois os resíduos se tornaram ainda mais feios (veja a Fig. 2)
- Eu ajustei modelos sem efeitos aleatórios, com quase-Poisson glm e glm.nb; também produziu parcelas residuais vs. ajustadas similares ao modelo original
Até onde eu sei, pode haver maneiras de estimar erros padrão consistentes em heterocedasticidade, mas não consegui encontrar nenhum método para os GLMMs de Poisson (ou qualquer outro tipo de) em R.
Em resposta a @FlorianHartig: o número de observações no meu conjunto de dados é N = 554, acho que isso é uma obs. número para esse modelo, mas, é claro, quanto mais, melhor. Postei duas figuras, a primeira delas é a plotagem residual em escala DHARMa (sugerida por Florian) do modelo principal.
A segunda figura é de um segundo modelo, no qual a única diferença é que ele contém o efeito aleatório no nível de observação (o primeiro não).
ATUALIZAR
Figura da relação entre uma variável climática (como preditor, ou seja, eixo x) e sucesso da amostragem (resposta):
ATUALIZAÇÃO II.
Figuras mostrando valores preditivos vs. resíduos:
fonte
Respostas:
É difícil avaliar o ajuste do Poisson (ou qualquer outro GLM com valor inteiro) com resíduos de Pearson ou desvio, porque também um Poisson GLMM perfeitamente adequado exibirá resíduos de desvio não homogêneos.
Isso é especialmente verdade se você fizer GLMMs com REs no nível de observação, porque a dispersão criada pelos OL-REs não é considerada pelos resíduos de Pearson.
Para demonstrar o problema, o código a seguir cria dados Poisson superdispersos, que são então equipados com um modelo perfeito. Os resíduos de Pearson se parecem muito com o seu enredo - portanto, pode ser que não haja nenhum problema.
Esse problema é resolvido pelo pacote DHARMa R , que simula a partir do modelo ajustado para transformar os resíduos de qualquer GL (M) M em um espaço padronizado. Feito isso, é possível avaliar / testar visualmente problemas residuais, como desvios da distribuição, dependência residual de um preditor, heterocedasticidade ou autocorrelação da maneira normal. Veja a vinheta do pacote para obter exemplos detalhados. Você pode ver no gráfico inferior que o mesmo modelo agora parece bom, como deveria.
Se você ainda perceber heterocedasticidade após plotar com o DHARMa, terá que modelar a dispersão em função de algo, o que não é um grande problema, mas provavelmente exigiria a mudança para JAGs ou outro software bayesiano.
fonte