Como interpretar coeficientes em uma regressão de Poisson?

64

Como interpretar os principais efeitos (coeficientes do fator codificado por dummy) em uma regressão de Poisson?

Suponha o seguinte exemplo:

treatment     <- factor(rep(c(1, 2), c(43, 41)), 
                        levels = c(1, 2),
                        labels = c("placebo", "treated"))
improved      <- factor(rep(c(1, 2, 3, 1, 2, 3), c(29, 7, 7, 13, 7, 21)),
                        levels = c(1, 2, 3),
                        labels = c("none", "some", "marked"))    
numberofdrugs <- rpois(84, 10) + 1    
healthvalue   <- rpois(84, 5)   
y             <- data.frame(healthvalue, numberofdrugs, treatment, improved)
test          <- glm(healthvalue~numberofdrugs+treatment+improved, y, family=poisson)
summary(test)

A saída é:

Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)       1.88955    0.19243   9.819   <2e-16 ***
numberofdrugs    -0.02303    0.01624  -1.418    0.156    
treatmenttreated -0.01271    0.10861  -0.117    0.907   MAIN EFFECT  
improvedsome     -0.13541    0.14674  -0.923    0.356   MAIN EFFECT 
improvedmarke    -0.10839    0.12212  -0.888    0.375   MAIN EFFECT 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Eu sei que a taxa de incidentes numberofdrugsé de exp(-0.023)=0.977. Mas como interpreto os principais efeitos das variáveis ​​dummy?

- Reinstate Monica
fonte
Uma resposta semelhante (mas enquadrada de forma mais matemática) pode ser encontrada aqui: Como interpretar estimativas de parâmetros nos resultados de Poisson GLM .
gung - Restabelece Monica
É interessante que a pergunta referenciada foi fechada como fora de tópico. (Eu não teria concordado que isso era fora de tópico, pois qualquer resposta também se aplicaria à saída de qualquer programa de estatísticas que retornasse uma tabela de coeficientes para o usuário e concordo com você de que é de grande valor na base parece-me que a comunidade SO é "muito rígida" em questões que pedem a interpretação da saída de R. Eles não são realmente tópicos sobre o StackOverflow, pois não há nenhuma sugestão de que a ajuda de codificação seja necessária.
Dwin
@ DWin, eu não acho que interpretar a saída estatística está fora do tópico no Cross Validated . Votei para encerrar essa pergunta como uma duplicata. Outros parecem ter votado no AT, pelo que entendi, porque pareciam a eles que o OP "despejava sua saída de computador lá e [esperava que alguém] executasse a análise de estatísticas para eles".
gung - Restabelece Monica
11
@gung: Eu estava claro que não era você quem estava chamando de OT. Seus comentários foram claros nesse ponto. (Eu pensei que estava concordando com você.) O "motivo" listado em uma votação apertada é geralmente uma decisão da maioria ou da pluralidade.
DWin 06/04
Relevante: stats.stackexchange.com/questions/142338/…
kjetil b halvorsen

Respostas:

56

O numberofdrugscoeficiente exponencial é o termo multiplicativo a ser usado para calcular a estimativa healthvaluequando numberofdrugsaumenta em 1 unidade. No caso de variáveis ​​categóricas (fator), o coeficiente exponenciado é o termo multiplicativo relativo ao nível base (primeiro fator) dessa variável (já que R usa os contrastes de tratamento por padrão). Essa exp(Intercept)é a taxa de linha de base e todas as outras estimativas seriam relativas a ela.

No seu exemplo, o estimado healthvaluepara alguém com 2drogas "placebo"e improvement=="none"seria (usando adição dentro de exp como o equivalente à multiplicação):

 exp( 1.88955 + 2*-0.02303 + 0 + 0 )
 [1] 6.318552

Enquanto alguém que usa 4drogas ,, "treated"e "some"melhoria teria uma estimativa healthvaluede

exp( 1.88955 + 4*-0.02303 + -0.01271 + -0.13541)
[1] 5.203388

ADENDO: Isto é o que significa ser "aditivo na escala logarítmica". "Aditivo na escala log-odds" foi a frase que minha professora, Barbara McKnight, usou ao enfatizar a necessidade de usar todos os coeficientes de termos aplicados na regressão logística ao fazer qualquer tipo de previsão. Você adiciona primeiro todos os coeficientes vezes os valores de covariáveis ​​e, em seguida, exponencia. A maneira de retornar coeficientes de objetos de regressão em R é geralmente usar a coef()função extrator (feita com uma realização aleatória diferente abaixo):

 coef(test)
  #   (Intercept)    numberofdrugs treatmenttreated     improvedsome   improvedmarked 
  #   1.18561313       0.03272109       0.05544510      -0.09295549       0.06248684 

Portanto, o cálculo da estimativa para um sujeito com 4drogas "treated", com "some"melhoria seria:

 exp( sum( coef(test)[ c(1,2,3,4) ]* c(1,4,1,1) ) ) 
 [1] 3.592999

E o preditor linear para esse caso deve ser a soma de:

 coef(test)[c(1,2,3,4)]*c(1,4,1,1) 
 #    (Intercept)    numberofdrugs treatmenttreated     improvedsome 
 #     1.18561313       0.13088438       0.05544510      -0.09295549

Esses princípios devem se aplicar a qualquer pacote de estatísticas que retorne uma tabela de coeficientes para o usuário. O método e os princípios são mais gerais do que podem parecer no meu uso de R.


Estou copiando os comentários esclarecedores selecionados, pois eles 'desaparecem' na exibição padrão:

P: Então você interpreta os coeficientes como proporções! Obrigado! - MarkDollar

A: Os coeficientes são os logaritmos naturais das proporções. - DWin

P2: Nesse caso, em uma regressão de poisson, os coeficientes exponenciados também são chamados de "odds ratio"? - oort

A2: Não. Se fosse regressão logística, eles seriam apenas na regressão de Poisson, onde o LHS é o número de eventos e o denominador implícito é o número em risco, então os coeficientes exponenciados são "taxas de taxa" ou "riscos relativos".

DWin
fonte
Então, você votou duas vezes? Que bom. Eu pensei que oferecer uma implementação de código R da interpretação poderia resgatá-lo das forças da retidão da classificação. O OP compôs um bom exemplo independente. Talvez eu devesse ter demonstrado uma função extrator, então acho que sim.
DWin
Sim, eu upvoted sua resposta no SO, em seguida, ele se mudou para cá e eu upvoted novamente :)
Brandon Bertelsen
Obrigado até agora! Conheço a relação entre os manequins e os cavariables, mas estou interessado apenas em como interpretar os efeitos principais (eu os marquei). É possível pegar a taxa de incidência de efeitos principais, por exemplo, para o manequim tratado 'exp (-0,012) = 0,99' e interpretá-la como a taxa a partir da qual o valor de cura diminui ao mudar da categoria de referência para a tratada? Deve ser, não?
MarkDollar 22/05
Os coeficientes exponenciados são sempre interpretados como proporções. Proporções de 'o que' para 'o que' dependem das unidades de análise. As 'taxas' são diferentes, com um número implícito e um valor temporal. . Então, se você está disposto a mudar sua terminologia, então, talvez, "sim" Melhores respostas vêm descrevendo completamente a situação análise.
Dwin
Ah, ok, é isso que eu queria saber. Então você interpreta os coeficientes como proporções! Obrigado!
MarkDollar