OLS vs. Poisson GLM com link de identidade

11

Minha pergunta revela meu fraco entendimento da regressão de Poisson e GLMs em geral. Aqui estão alguns dados falsos para ilustrar minha pergunta:

### some fake data
x=c(1:14)
y=c(0,  1,  2,  3,  1,  4,  9, 18, 23, 31, 20, 25, 37, 45)

Algumas funções personalizadas para retornar psuedo-R2:

### functions of pseudo-R2

psuR2 <- function(null.dev, model.dev) { 1 - (model.dev / null.dev)}

predR2 <- function(actuals, predicted) { 1 - (sum((actuals - predicted)^2)) / sum((actuals - mean(actuals))^2)}

Ajuste quatro modelos: OLS, Gaussian GLM com link de identidade, Poisson GLM com link de log, Poisson GLM com link de identidade

#### OLS MODEL
mdl.ols=lm(y~x)
summary(mdl.ols)
pred.ols = predict(mdl.ols)

summary(mdl.ols)$r.squared
predR2(y, pred.ols)

#### GLM MODEL, family=gaussian(link="identity")
mdl.guass <- glm(y~x, family=gaussian(link="identity"), maxit=500)
summary(mdl.guass)
pred.guass = predict(mdl.guass)

psuR2(mdl.guass$null.deviance, mdl.guass$deviance)
predR2(y, pred.guass)

#### GLM MODEL, family=possion (canonical link)
mdl.poi_log <- glm(y~x, family=poisson(link="log"), maxit=500)
summary(mdl.poi_log)
pred.poi_log= exp(predict(mdl.poi_log))  #transform

psuR2(mdl.poi_log$null.deviance, mdl.poi_log$deviance)
predR2(y, pred.poi_log)

#### GLM MODEL, family=poisson((link="identity")
mdl.poi_id <- glm(y~x, family=poisson(link="identity"), start=c(0.5,0.5), maxit=500)
summary(mdl.poi_id)
pred.poi_id = predict(mdl.poi_id)

psuR2(mdl.poi_id$null.deviance, mdl.poi_id$deviance)
predR2(y, pred.poi_id)

Finalmente, plote as previsões:

#### Plot the Fit
plot(x, y) 
lines(x, pred.ols)
lines(x, pred.guass, col="green")
lines(x,pred.poi_log, col="red")
lines(x,pred.poi_id, col="blue")

Eu tenho 2 perguntas:

  1. Parece que os coeficientes e previsões que saem do OLS e do Gaussian GLM com link de identidade são exatamente os mesmos. Isso é sempre verdade?

  2. Estou muito surpreso que as estimativas e previsões do OLS sejam muito diferentes do Poisson GLM com link de identidade . Eu pensei que ambos os métodos tentariam estimar E (Y | X). Como é a função de probabilidade quando eu uso o link de identidade para Poisson?

William Chiu
fonte
Relacionados: stats.stackexchange.com/questions/142338/...
b Kjetil Halvorsen
11
Se você desejar fazer mínimos quadrados para aproximar o modelo de Poisson com o link de identidade, também poderá ajustar um modelo de mínimos quadrados ponderados, mdl.wols = lm (y ~ x, pesos = 1 / log (y + 1.00000000001)) em que o log (y + 1.00000000001) é então tomada como uma primeira estimativa da variância (sqrt (y + 1E-10)) também funciona - as estimativas de tais modelos estariam muito próximas das do Poisson GLM com link de identidade ...
Tom Wenseleers

Respostas:

14
  1. Sim, são a mesma coisa. O MLE para um gaussiano é de mínimos quadrados; portanto, quando você faz um GLM gaussiano com link de identidade, está fazendo o OLS.

  2. a) " Eu pensei que ambos os métodos tentariam estimar E (Y | X) "

    De fato, eles fazem, mas o modo como a expectativa condicional é estimada em função dos dados não é a mesma. Mesmo se ignorarmos a distribuição (e, portanto, como os dados entram na probabilidade) e pensarmos no GLM apenas em termos de média e variância (como se fosse apenas uma regressão ponderada), a variação de um Poisson aumenta com a média, então os pesos relativos nas observações seriam diferentes.

    b) " Como é a função de probabilidade quando eu uso o link de identidade para Poisson? "

    L(β0,β1)=ieλiλiyi/yi!

    =exp(iλi+yilog(λi)log(yi!)) ondeλi=β0+β1xi

    =exp(i(β0+β1xi)+yilog(β0+β1xi)log(yi!))

Glen_b -Reinstate Monica
fonte
4
Uma elaboração sobre o segundo ponto de Glen_b. Uma história que contei a mim mesma, que achei bastante esclarecedora, é que, à medida que a média condicional estimada aumenta no modelo de poisson, o modelo fica mais tolerante com os valores dos dados distantes da média condicional. Compare isso com o modelo linear reto, que é uniformemente tolerante, independentemente da estimativa da média condicional.
Matthew Drury
@Glen_b, posso pedir que você esclareça o que disse: "portanto, como os dados entram na probabilidade". Você está dizendo que a probabilidade de ajuste do modelo é diferente entre um OLS e um POisson (link = identidade), quando ajustado usando o MLE ?. Ou seja, se ajustando o OLS usando o MLE, você usa a função de probabilidade para a distribuição normal para calcular a probabilidade do ajuste, versus a função de probabilidade da distribuição de poisson no último caso?
2528 Alex
11
@Alex Right; OLS é ML na probabilidade gaussiana e gaussiana não é de Poisson
Glen_b -Reinstate Monica