Estou tentando ajustar dados com um GLM (regressão de Poisson) em R. Quando plotei os resíduos versus os valores ajustados, o gráfico criou múltiplas "linhas" (quase lineares com uma ligeira curva côncava). O que isto significa?
library(faraway)
modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor +
freerepa + illness + actdays + hscore + chcond1 + chcond2,
family=poisson, data=dvisits)
plot(modl)
homework
desde que você falou sobre uma tarefa.table(dvisits$doctorco)
. A que correspondem as 10 linhas curvas do seu gráfico nesta tabela? Além disso, com mais de 5.000 observações, não se preocupe muito em ajustar 13 coeficientes de regressão.Respostas:
Essa é a aparência que você espera desse gráfico quando a variável dependente é discreta.
Cada traço curvilíneo de pontos no gráfico corresponde a um valor fixo da variável dependente y . Todos os casos em que y = k tem uma previsão y ; seu residual - por definição - é igual a k - y . A trama de k - y contra y é, obviamente, uma linha com o declive - um . Em regressão de Poisson, o eixo x é mostrado numa escala logarítmica: é log ( y ) . As curvas agora dobram-se exponencialmente. Como kk y y=k y^ k−y^ k−y^ y^ −1 log(y^) k varia, essas curvas aumentam em valores integrais. Exponenciá-los fornece um conjunto de curvas quase paralelas. (Para provar isso, o gráfico será explicitamente construído abaixo, colorindo separadamente os pontos pelos valores de .)y
Podemos reproduzir o enredo em questão bastante de perto por meio de um modelo semelhante, mas arbitrário (usando pequenos coeficientes aleatórios):
fonte
Às vezes, listras como essas em gráficos residuais representam pontos com valores observados (quase) idênticos que obtêm previsões diferentes. Olhe para os seus valores-alvo: quantos valores únicos são? Se minha sugestão estiver correta, deve haver 9 valores exclusivos no seu conjunto de dados de treinamento.
fonte
Esse padrão é característico de uma correspondência incorreta da família e / ou vínculo. Se você tiver dados em excesso de dispersão, talvez deva considerar as distribuições binomial negativa (contagem) ou gama (contínua). Além disso, você deve plotar seus resíduos contra o preditor linear transformado, não os preditores ao usar modelos lineares generalizados. Para transformar o preditor de Poisson, você precisa pegar duas vezes a raiz quadrada do preditor linear e plotar seus resíduos contra isso. Os resíduos ainda mais não devem ser exclusivamente resíduos pearson, tente desvios residuais e resíduos estudados.
fonte