Interpretando gráficos residuais de diagnóstico para modelos glm?

33

Estou procurando orientações sobre como interpretar gráficos residuais de modelos de glm. Especialmente modelos poisson, binomial negativo e binomial. O que podemos esperar desses gráficos quando os modelos estão "corretos"? (por exemplo, esperamos que a variação cresça à medida que o valor previsto aumenta, pois ao lidar com um modelo de Poisson)

Eu sei que as respostas dependem dos modelos. Quaisquer referências (ou pontos gerais a serem considerados) serão úteis / apreciadas.

Tal Galili
fonte

Respostas:

16

Eu acho que essa é uma das partes mais desafiadoras ao fazer a análise de regressão. Eu também luto com a maioria das interpretações (em particular os diagnósticos binomiais são loucos!).

Eu apenas tropecei neste post http://www.r-bloggers.com/model-validation-interpreting-residual-plots/, que também vinculou http://statmaster.sdu.dk/courses/st111/module04/index.html # SECTION00020000000000000000

o que me ajuda mais é plotar os resíduos versus todos os parâmetros preditivos incluídos E não incluídos no modelo. Isso significa também aqueles que foram descartados de antemão por razões de multicolinearidade. Para esses boxplots, os gráficos de dispersão condicionais e de dispersão normais são ótimos. isso ajuda a detectar possíveis erros

Em "Forest Analytics with R" (UseR Series), há algumas boas explicações sobre como interpretar resíduos para modelos de efeitos mistos (e também glms). Boa leitura! http://www.springer.com/statistics/life+sciences,+medicine+%26+health/book/978-1-4419-7761-8

Algum dia atrás, pensei em um site que poderia coletar padrões residuais nos quais os usuários podem votar como "ok" e "não ok". mas nunca encontrei esse site;)

Jens
fonte
8

Eu sugeriria os métodos descritos em:

 Buja, A., Cook, D. Hofmann, H., Lawrence, M. Lee, E.-K., Swayne,
 D.F and Wickham, H. (2009) Statistical Inference for exploratory
 data analysis and model diagnostics Phil. Trans. R. Soc. A 2009
 367, 4361-4383 doi: 10.1098/rsta.2009.0120

Existem algumas idéias diferentes, mas a maioria se resume à simulação de dados, onde você sabe qual é o verdadeiro relacionamento e esse relacionamento é baseado em sua análise dos dados reais. Em seguida, você compara os diagnósticos dos seus dados reais aos diagnósticos dos conjuntos de dados simulados. A vis.testfunção no pacote TeachingDemos para R implementa uma variação de 1 das sugestões no artigo. Leia o artigo inteiro (não apenas minha breve síntese) para entender melhor.

Greg Snow
fonte
Eu acho que é uma boa sugestão para ver padrões que se desviam aleatoriamente em dispersões ou outras parcelas, mas esse não é o único objetivo ao visualizar resíduos. Frequentemente, estamos interessados ​​em desvios particulares do aleatório (por exemplo, hereerecedcedasticidade, não linearidade mal especificada no modelo, variáveis ​​omitidas, valores extremos ou valores altos de alavancagem, etc.). Comparações com dados gerados aleatoriamente não ajudam a identificar por que os resíduos não são aleatórios nem o remédio.
Andy W
@ AndyW, acho que estamos interpretando a pergunta original de maneira diferente. Minha resposta inicia o pesquisador informando se há algo mais que eles precisam procurar ou se o gráfico residual é razoável. O que fazer se não parecer razoável é o próximo passo e além da minha resposta (embora algumas suposições adicionais possam ser comparadas usando um novo conjunto de simulações).
Greg Snow
5

Essa pergunta é bastante antiga, mas achei que seria útil acrescentar que, desde recentemente, você pode usar o pacote DHARMa R para transformar os resíduos de qualquer GL (M) M em um espaço padronizado. Feito isso, é possível avaliar / testar visualmente problemas residuais, como desvios da distribuição, dependência residual de um preditor, heterocedasticidade ou autocorrelação da maneira normal. Veja a vinheta do pacote para obter exemplos detalhados, além de outras perguntas sobre o CV aqui e aqui .

Florian Hartig
fonte