Estou tentando ajustar uma regressão para explicar o número de homicídios em cada distrito de uma cidade. Embora eu saiba que meus dados seguem uma distribuição Poisson, tentei ajustar um OLS como este:
Então, eu também tentei (é claro!) Uma regressão de Poisson. O problema é que têm melhores resultados na regressão OLS: o pseudo- é superior (0,71 contra 0,57) e o RMSE, bem como (3,8 vs 8,88 Padronizado para ter a mesma unidade.).
Por quê? Isso é normal? O que há de errado em usar o OLS, independentemente da distribuição dos dados?
edit Seguindo as sugestões de kjetil b halvorsen e outros, ajustei os dados através de dois modelos: OLS e GLM binomial negativo (NB). Comecei com todos os recursos que possuo, depois removi recursivamente um por um os que não eram significativos. OLS é
com pesos = .
summary(w <- lm(sqrt(num/area) ~ RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_highways+ mdist_parks, data=p, weights=area))
error2 <- p$num - (predict(w, newdata=p[,-1:-2], type="response")**2)*p$area
rmse(error2)
[1] 80.64783
O RN prevê o número de crimes, com a área do distrito compensada.
summary(m3 <- glm.nb(num ~ LUM5_single + RNR_nres + mdist_daily + mdist_non_daily+ hType_mix_std + ratio_daily_nondaily_area + area_filtr + num_community_places + employed + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_smallparks + mdist_highways+ mdist_parks + offset(log(area)), data=p, maxit = 1000))
error <- p$num - predict(m3, newdata=p[,-1:-2], type="response")
rmse(error)
[1] 121.8714
Resíduos de OLS:
Resíduos NB
Portanto, o RMSE é mais baixo no OLS, mas parece que os resíduos não são tão normais ....
fonte
Respostas:
Suspeito que parte do problema esteja na sua métrica de desempenho. Se você medir o desempenho do teste usando o RMSE, o treinamento do modelo para minimizar o MSE corresponde ao critério de teste, dando uma dica sobre o que é considerado importante. Você pode descobrir que, se medir o desempenho do teste usando a probabilidade logarítmica negativa do conjunto de testes, usando uma probabilidade de Poisson de que o modelo de Poisson funcione melhor (como seria de esperar). Esse pode ser um problema menor em comparação com os outros problemas levantados, mas pode ser uma verificação de sanidade útil.
fonte
Primeiro, com esses dados, eu esperaria uma super-dispersão (se você não souber o que é isso, consulte /stats//search?q=what+is+overdispersion%3F ).
Outra questão é a transformação que você usou com a regressão linear. A transformação de estabilização de variância usual usada com dados de contagem é a raiz quadrada, não o logaritmo.
Quanto à sua análise adicional no post, observe que as rmse não podem ser comparadas diretamente entre os dois modelos, pois respostas diferentes são usadas! Para fazer uma comparação direta, você precisará retroceder os valores previstos para a escala original. Então você pode calcular o rmse e veja. Mas observe que as previsões obtidas após a retro-transformação podem ser tendenciosas, devido a não-linearidades. Portanto, algum ajuste nas previsões retro-transformadas pode torná-las mais úteis. Em alguns casos, isso pode ser calculado teoricamente, ou você pode simplesmente usar um bootstrap.
fonte
fonte
É verdade que seus dados não são normalmente distribuídos (o que eu presumo é o motivo pelo qual você também executou uma regressão de Poisson), mas seus dados provavelmente também não são uma distribuição de Poisson. A distribuição de Poisson assume que a média e a variância são as mesmas, o que provavelmente não é o caso (como mencionado em outras respostas - você pode capturar essa discrepância e incorporá-la ao modelo). Como seus dados não são realmente adequados para os dois modelos, faz sentido que o OLS possa ter um desempenho melhor.
Outro ponto a ser observado é que as estimativas de mínimos quadrados comuns são robustas à não Normalidade, e pode ser por isso que você está obtendo um modelo razoável. O teorema de Gauss-Markov nos diz que as estimativas dos coeficientes OLS são os melhores (em termos de erro quadrático médio) estimadores lineares imparciais (AZUL) nas seguintes premissas,
Não há nenhuma suposição de Normalidade aqui, então seus dados podem muito bem ser razoáveis para este modelo! Com isso dito, eu examinaria um modelo de Poisson com um parâmetro de excesso de dispersão incorporado e você deverá obter melhores resultados.
fonte