Como interpretar estimativas de parâmetros nos resultados de Poisson GLM [fechado]

14
Call:
glm(formula = darters ~ river + pH + temp, family = poisson, data = darterData)

Deviance Residuals:
    Min      1Q   Median     3Q    Max
-3.7422 -1.0257   0.0027 0.7169 3.5347

Coefficients:
              Estimate Std.Error z value Pr(>|z|)
(Intercept)   3.144257  0.218646  14.381  < 2e-16 ***
riverWatauga -0.049016  0.051548  -0.951  0.34166
pH            0.086460  0.029821   2.899  0.00374 **
temp         -0.059667  0.009149  -6.522  6.95e-11 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for poisson family taken to be 1)
Null deviance: 233.68 on 99 degrees of freedom
Residual deviance: 187.74 on 96 degrees of freedom
AIC: 648.21

Eu quero saber como interpretar cada estimativa de parâmetro na tabela acima.

tomjerry001
fonte
A interpretação é idêntica: stats.stackexchange.com/a/126225/7071
Dimitriy V. Masterov
6
Esta questão parece estar fora de tópico, porque se trata de explicar uma saída R sem qualquer forma de pergunta inteligente por trás. Esta é a categoria "Eu despejo minha saída do computador lá e você executar a análise de estatísticas para mim" ...
Xi'an
1
Seu parâmetro de dispersão parece indicar que há alguns problemas com o seu modelo. Talvez você deva considerar usar uma distribuição quase-pontual. Aposto que suas estimativas de parâmetros mudarão drasticamente e a interpretação também. Se você executar "plot (model)", obterá algumas plotagens de seus resíduos, dê uma olhada nessas plotagens quanto a padrões indesejados antes de começar a interpretar seu modelo real. Para traçar rapidamente o ajuste do seu modelo, você também pode usar "visreg (modelfit)" do pacote visreg
Robbie
3
@ Xi'an, embora a pergunta seja escassa e requer edição, eu não acho que seja fora de tópico. Considere estas perguntas que não são consideradas fora de tópico: Interpretação da saída lm () de R e Interpretação da saída de R para regressão binomial . Parece ser uma duplicata , no entanto.
gung - Restabelece Monica
2
Esta é uma duplicata de Como interpretar coeficientes em uma regressão de Poisson? Por favor, leia o tópico vinculado. Se você ainda tiver alguma dúvida depois de ler isso, volte aqui e edite sua pergunta para indicar o que aprendeu e o que ainda precisa saber, então podemos fornecer as informações necessárias sem duplicar o material em outro lugar que já não ajudou você.
gung - Restabelece Monica

Respostas:

28

Não acho que o título da sua pergunta capte com precisão o que você está pedindo.

A questão de como interpretar os parâmetros em um GLM é muito ampla, porque o GLM é uma classe muito ampla de modelos. Lembre-se de que um GLM modela uma variável de resposta que se supõe seguir uma distribuição conhecida da família exponencial e que escolhemos uma função invertível g de modo que E [ yyg paravariáveis ​​preditivas J x . Nesse modelo, a interpretação de qualquer parâmetro específico β j é a taxa de variação de g ( y ) em relação a x j . Definir μ E [ y

E[y|x]=g1(x0+x1β1++xJβJ)
Jxβjg(y)xj eηxβpara manter a notação limpa. Então, para qualquerj{1,,J}, β j =μE[y|x]=g1(x)ηxβj{1,,J} Agora definaejcomo um vetor dezerosJ-1e um único1naj-ésima posição, de modo que, por exemplo, seJ=5entãoe3=(0,0,1,0,0). Então βj=g(E [ y
βj=ηxj=g(μ)xj.
ejJ11jJ=5e3=(0,0,1,0,0)
βj=g(E[y|x+ej])g(E[y|x])

O que significa apenas que é o efeito em η de um aumento de unidade em x j .βjηxj

Você também pode indicar o relacionamento desta maneira: e E[y

E[y|x]xj=μxj=dμdηηxj=μηβj=dg1dηβj
E[y|x+ej]E[y|x]Δjy^=g1((x+ej)β)g1(xβ)

Sem saber nada sobre , é o mais longe que podemos chegar. β j é o efeito em η , na média condicional transformada de y , de um aumento unitário em x j , e o efeito na média condicional de y de um aumento unitário em x j é g - 1 ( β ) .gβjηyxjyxjg1(β)


Mas você parece estar perguntando especificamente sobre a regressão de Poisson usando a função de link padrão de R, que neste caso é o logaritmo natural. Se for esse o caso, você está perguntando sobre um tipo específico de GLM em que e g = ln . Então podemos obter alguma tração em relação a uma interpretação específica.yPoisson(λ)g=ln

Pelo que eu disse acima, sabemos que . E já que sabemosg(μ)=ln(μ), também sabemos queg-1(η)=eη. Também sabemos quedeημxj=dg1dηβjg(μ)=ln(μ)g1(η)=eη, então podemos dizer que μdeηdη=eη

μxj=E[y|x]xj=ex0+x1β1++xJβJβj

o que finalmente significa algo tangível:

Dada uma muito pequena mudança em , o equipada y muda por yxjy^ .y^βj

Nota: essa aproximação pode realmente funcionar para alterações tão grandes quanto 0,2, dependendo da precisão necessária.

E usando a interpretação mais familiarizados mudança de unidade, temos: que significa

Δjy^=ex0+x1β1++(xj+1)βj++xJβJex0+x1β1++xJβJ=ex0+x1β1++xJβJ+βjex0+x1β1++xJβJ=ex0+x1β1++xJβJejβex0+x1β1++xJβJ=ex0+x1β1++xJβJ(ejβ1)

Dada uma unidade de variação em , os embutidos y alterações por y ( e β j - 1 ) .xjy^y^(ejβ1)

Há três peças importantes a serem observadas aqui:

  1. O efeito de uma mudança nos preditores depende do nível da resposta.
  2. Uma mudança aditiva nos preditores tem um efeito multiplicativo na resposta.
  3. Você não pode interpretar os coeficientes apenas lendo-os (a menos que possa calcular exponenciais arbitrários em sua cabeça).

lny^y^(e0.091) y^e0.091.09

shadowtalker
fonte
Fiz alguns ajustes aqui, @ssdecontrol. Acho que eles tornarão sua postagem um pouco mais fácil de seguir, mas se você não gostar, reverta-as com minhas desculpas.
gung - Restabelece Monica
Se você não consegue descobrir isso com a minha resposta, é claro que preciso revisá-la. Sobre o que você ainda está confuso?
shadowtalker
Conecte esses números na equação assim como em regressão linear
shadowtalker
1
@skan não, quero dizer E[y|x]. x and y are random variables representing to a single observation. x is a vector indexed by j; xj is the random variable representing a specific feature/regressor/input/predictor for that observation.
shadowtalker
2
And don't overthink it. Once you understand all the pieces in a GLM, the manipulations here are just a direct application of calculus principles. It really is as simple as taking the derivative with respect to the variable you're interested in.
shadowtalker
3

My suggestion would be to create a small grid consisting of combinations of the two rivers and two or three values of each of the covariates, then use the predict function with your grid as newdata. Then graph the results. It is much clearer to look at the values that the model actually predicts. You may or may not want to back-transform the predictions to the original scale of measurement (type = "response").

Russ Lenth
fonte
1
As much as I like this approach (I do it all the time) I think it's counterproductive for building understanding.
shadowtalker