Por que os mínimos quadrados ordinários têm um desempenho melhor que a regressão de Poisson?

18

Estou tentando ajustar uma regressão para explicar o número de homicídios em cada distrito de uma cidade. Embora eu saiba que meus dados seguem uma distribuição Poisson, tentei ajustar um OLS como este:

euog(y+1)=α+βX+ϵ

Então, eu também tentei (é claro!) Uma regressão de Poisson. O problema é que têm melhores resultados na regressão OLS: o pseudo- é superior (0,71 contra 0,57) e o RMSE, bem como (3,8 vs 8,88 Padronizado para ter a mesma unidade.).R2

Por quê? Isso é normal? O que há de errado em usar o OLS, independentemente da distribuição dos dados?

edit Seguindo as sugestões de kjetil b halvorsen e outros, ajustei os dados através de dois modelos: OLS e GLM binomial negativo (NB). Comecei com todos os recursos que possuo, depois removi recursivamente um por um os que não eram significativos. OLS é

crEumeumareuma=α+βX+ϵ

com pesos = .umareuma

summary(w <- lm(sqrt(num/area) ~  RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_highways+ mdist_parks, data=p, weights=area))

error2 <- p$num - (predict(w, newdata=p[,-1:-2], type="response")**2)*p$area

rmse(error2)
[1] 80.64783

O RN prevê o número de crimes, com a área do distrito compensada.

summary(m3 <- glm.nb(num ~  LUM5_single  + RNR_nres + mdist_daily + mdist_non_daily+ hType_mix_std + ratio_daily_nondaily_area + area_filtr + num_community_places  + employed  + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_smallparks + mdist_highways+ mdist_parks + offset(log(area)), data=p, maxit = 1000))

error <- p$num - predict(m3, newdata=p[,-1:-2], type="response")

rmse(error)
[1] 121.8714

Resíduos de OLS:

insira a descrição da imagem aqui

Resíduos NB

insira a descrição da imagem aqui

Portanto, o RMSE é mais baixo no OLS, mas parece que os resíduos não são tão normais ....

Marcodena
fonte
Você pode postar mais alguns detalhes? Qual é a natureza dos dados? isto é, qual é a variável de resposta contando? quais são as variáveis ​​explicativas?
Kjetil b halvorsen
@kjetilbhalvorsen a variável dependente é o número de homicídios por distrito (112 distritos). Os indipendent são as características estruturais da cidade (interseções de rua, POIs etc)
marcodena
2
Se eu estivesse ajustando esse modelo usando uma regressão de Poisson, incluiria log (tamanho do distrito) como um deslocamento para contabilizar os distritos que nem todos têm o mesmo tamanho. A menos que eles sejam.
mdewey
1
R2psevocêdo-R2RMSER2psevocêdo-R2
1
R2z=registro(y+1)R2y

Respostas:

16

Suspeito que parte do problema esteja na sua métrica de desempenho. Se você medir o desempenho do teste usando o RMSE, o treinamento do modelo para minimizar o MSE corresponde ao critério de teste, dando uma dica sobre o que é considerado importante. Você pode descobrir que, se medir o desempenho do teste usando a probabilidade logarítmica negativa do conjunto de testes, usando uma probabilidade de Poisson de que o modelo de Poisson funcione melhor (como seria de esperar). Esse pode ser um problema menor em comparação com os outros problemas levantados, mas pode ser uma verificação de sanidade útil.

Dikran Marsupial
fonte
1
+1. Se o objetivo dos OPs fosse uma previsão, poderia realmente haver uma justificativa para o uso de um modelo OLS! No entanto, a inferência clássica baseada em erro resultante do OLS não pode / não deve ser aplicada nos GLMs. Pode-se inspecionar resíduos estudados, ou uma opção melhor seria comparar modelos com a AIC.
19416 AdamO
11

Primeiro, com esses dados, eu esperaria uma super-dispersão (se você não souber o que é isso, consulte /stats//search?q=what+is+overdispersion%3F ).

registro(DistrictSize)Nr. homicídiosTamanho do distrito

Outra questão é a transformação que você usou com a regressão linear. A transformação de estabilização de variância usual usada com dados de contagem é a raiz quadrada, não o logaritmo.

YEu/xEuYEuPoisson(λxEu)

EYEuxEuλVYEuxEuxEu-1
xEuYEu/xEuregistro(YEu/xEu+1)
    EDIT

Quanto à sua análise adicional no post, observe que as rmse não podem ser comparadas diretamente entre os dois modelos, pois respostas diferentes são usadas! Para fazer uma comparação direta, você precisará retroceder os valores previstos para a escala original. Então você pode calcular o rmse e veja. Mas observe que as previsões obtidas após a retro-transformação podem ser tendenciosas, devido a não-linearidades. Portanto, algum ajuste nas previsões retro-transformadas pode torná-las mais úteis. Em alguns casos, isso pode ser calculado teoricamente, ou você pode simplesmente usar um bootstrap.

kjetil b halvorsen
fonte
Eu ajustei os modelos como você sugeriu, embora eu realmente não entendesse o resson por trás do OLS ponderado. O que você acha?
marcodena
6

R2R2R2R2

Cliff AB
fonte
2

É verdade que seus dados não são normalmente distribuídos (o que eu presumo é o motivo pelo qual você também executou uma regressão de Poisson), mas seus dados provavelmente também não são uma distribuição de Poisson. A distribuição de Poisson assume que a média e a variância são as mesmas, o que provavelmente não é o caso (como mencionado em outras respostas - você pode capturar essa discrepância e incorporá-la ao modelo). Como seus dados não são realmente adequados para os dois modelos, faz sentido que o OLS possa ter um desempenho melhor.

Outro ponto a ser observado é que as estimativas de mínimos quadrados comuns são robustas à não Normalidade, e pode ser por isso que você está obtendo um modelo razoável. O teorema de Gauss-Markov nos diz que as estimativas dos coeficientes OLS são os melhores (em termos de erro quadrático médio) estimadores lineares imparciais (AZUL) nas seguintes premissas,

  • Os erros têm uma média de zero
  • As observações não são correlacionadas
  • Os erros têm variação constante

Não há nenhuma suposição de Normalidade aqui, então seus dados podem muito bem ser razoáveis ​​para este modelo! Com isso dito, eu examinaria um modelo de Poisson com um parâmetro de excesso de dispersão incorporado e você deverá obter melhores resultados.

TrynnaDoStat
fonte
@TynnaDoStat thanks! Eu instalei dois modelos agora, um com parâmetro de dispersão. O que você acha?
marcodena
2
Variância = média para uma distribuição de Poisson é frequentemente invocada como uma suposição problemática para a regressão de Poisson , mas o ponto não é tão difícil quanto está implícito aqui. Apesar do nome, a idéia principal da regressão de Poisson é a de uma função de link de log; suposições sobre distribuição condicional não são tão importantes. O mais provável é que as suposições nem sempre sejam válidas, principalmente porque os erros padrão estão desativados, a menos que você ajuste, mas o ajuste geralmente faz sentido.
Nick Cox
2
De fato, a regressão de Poisson pode fazer sentido para respostas medidas não negativas, nas quais variância e média nem sequer têm as mesmas dimensões. Veja, por exemplo, blog.stata.com/2011/08/22/…
Nick Cox