Como interpretar o termo de interceptação em um GLM?

20

Estou usando R e tenho analisado meus dados com GLM com link Binomial.

Quero saber qual é o significado da interceptação na tabela de saída. A interceptação para um dos meus modelos é significativamente diferente, mas a variável não é. O que isto significa?

Qual é a interceptação? Não sei se estou apenas me confundindo, mas tendo pesquisado na internet, não há nada a dizer, é isso, tome nota ... ou não.

Por favor, ajudem, um aluno muito frustrado


glm(formula = attacked_excluding_app ~ treatment, family = binomial, 
    data = data)
Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.3548   0.3593   0.3593   0.3593   0.3593  
Coefficients:
                         Estimate Std. Error z value Pr(>|z|)   
(Intercept)                 2.708      1.033   2.622  0.00874 **
treatmentshiny_non-shiny    0.000      1.461   0.000  1.00000

(Dispersion parameter for binomial family taken to be 1)
Null deviance: 14.963  on 31  degrees of freedom
Residual deviance: 14.963  on 30  degrees of freedom
(15 observations deleted due to missingness)
AIC: 18.963
Number of Fisher Scoring iterations: 5
Samuel Waldron
fonte
1
Qual é a função de link que você especifica no glm?
Tomas
5
A interceptação é o valor previsto da variável dependente quando todas as variáveis ​​independentes são 0. Sem mais informações sobre o seu modelo, não posso dizer se isso é significativo no seu caso.
Peter Flom - Restabelece Monica

Respostas:

21

O termo intercepto é o intercepto na parte linear da equação GLM, portanto, seu modelo para a média é , em que é sua função de link e é seu modelo linear. Este modelo linear contém um "termo de interceptação", ou seja:g X βE[Y]=g-1(Xβ)gXβ

Xβ=c+X1β1+X2β2+

No seu caso, a interceptação é significativamente diferente de zero, mas a variável não, então está dizendo que

Xβ=c0 0

Como sua função de link é binomial, então

g(μ)=em(μ1-μ)

E assim, com apenas o termo de interceptação, seu modelo ajustado para a média é:

E[Y]=11+e-c

Você pode ver que se , isso corresponde a uma chance de 50:50 de obter Y = 1 ou 0, ou seja,E [ Y ] = 1c=0 0E[Y]=11+1=0,5

Portanto, seu resultado está dizendo que você não pode prever o resultado, mas uma classe (1 ou 0) é mais provável que a outra.

Corone
fonte
2
Você me assustou com E [Y] = .... :). Obrigado pela resposta, eu entendo o que você está dizendo. Você disse que a interceptação é sig. diferente de zero, mas o var. não é, é p = 1,00 !? Que efeito as variáveis ​​p-value têm sobre o que posso dizer sobre o resultado?
Samuel Waldron
2
Se um valor-p de variável não for pequeno, normalmente aquele não incluiria essa variável no modelo. No seu caso, a variável nem sequer está sendo estimada como tendo um valor diferente de zero, portanto, o valor de p de 1,00. Basicamente, não há relação entre "tratamento" e "attacked_excluding_app". A ausência de relacionamento é tão perfeita aqui que é quase suspeito, embora você tenha um pequeno conjunto de dados. Pode valer a pena visualizar seus dados e ver se são razoáveis.
Corone 21/01
2
+1 para resposta (e sugestão no comentário de que algo estranho está acontecendo no conjunto de dados), embora eu discorde da abertura do seu comentário "Se um valor p de variáveis ​​não for pequeno, normalmente não incluiríamos essa variável no modelo." Isso não é necessariamente tão - muitas vezes se deseja relatar a magnitude de um relacionamento, mesmo que não seja "significativo" (e mais ao ponto, se você estava interessado em modelar um relacionamento para começar, então um resultado nulo é ainda é importante relatar.)
James Stanley
1
@ James - ponto muito bom, deve-se sempre relatar quais variáveis ​​você testou - eu deveria ter sido mais claro, apenas quis dizer que normalmente não incluiríamos essa variável ao tentar usar o modelo para fazer uma previsão (já que isso geralmente significa super ajuste) )
Corone
@Corone - Estou particularmente interessado em seus comentários aqui sobre variável in / exclusão e sua relação com o segmento em stats.stackexchange.com/questions/17624/...
rolando2
5

Parece-me que pode haver algum problema com os dados. É estranho que a estimativa de parâmetro para o coeficiente seja 0,000. Parece que seu DV e seu IV são dicotômicos e que as proporções do seu DV não variam de maneira alguma com o seu IV. Isto está certo?

A interceptação, como observei no meu comentário (e como a resposta de @corone implica) é o valor do DV quando o IV é 0. Como o seu IV foi codificado? No entanto, o fato de a estimativa do coeficiente ser de 0,000 implica que o IV não faz diferença.

Portanto, a interceptação de 2.708 é o logit estimado do DV: ou seja, em todos os níveis do IV.registro(p1-p)

Peter Flom - Restabelece Monica
fonte
Olá pessoal, mais uma vez obrigado pelos comentários. Os pontos de dados são quase idênticos. Estou relatando isso em um relatório e, no entanto, preciso destacá-lo. É por isso que os resultados parecem estranhos. Com esses dados (GLM) e outros conjuntos de dados nos meus relatórios (GLMM), estou executando deffinately (# TEAM2x2x2x2) antes de poder andar. Eu acho que meu principal problema é saber o que preciso relatar. Menciono as estatísticas da interceptação ou da IV? Abaixo está o meu (provavelmente mais padrão) GLMM novamente com link binomial.
Samuel Waldron
Modelo misto linear generalizado ajustado pela aproximação de Laplace Fórmula: Atacada ~ Tratamento + Tentativa + Tratamento * Tentativa + (1 | Pássaro) Dados: dados AIC BIC logLik desvio-desvio 139,6 153,8 -64,78 129,6 Efeitos aleatórios: Grupos Nome Variância Std.Dev. Bird (Intercept) 0.87795 0.93699 Número de obs: 128, grupos: Bird, 32
Samuel Waldron
Efeitos fixos: Estimativa Padrão. Erro z valor Pr (> | z |) (Interceptação) 3.19504 0.90446 3.533 .000412 *** Tratamentoshiny_non-bright 0.02617 1.26964 0.021 .983558 Teste -1.53880 0,36705 -4,192 2,76e-05 *** Tratamento: Teste 0,16909 0,49501 0,342,732655 --- Signif. códigos: 0 ' ' 0.001 ' ' 0.01 ' ' 0.05 '.' 0.1 '' 1 Correlação de efeitos fixos: (Intr) Trtm_- Trial Trtmntshn_- -0.712 Trial -0.895 0.638 Trtmnts _-: T 0.664 -0.896 -0.742
Samuel Waldron
3

No seu caso, a interceptação é a média geral attacked_excluding_appcalculada para todos os dados, independentemente de treatment. O teste de significância na tabela de coeficientes está testando se é significativamente diferente de zero. Se isso é relevante depende se você tem algum motivo a priori para esperar que seja zero ou não.

Por exemplo, imagine que você testou um medicamento e um placebo quanto ao efeito na pressão arterial. Para cada sujeito, você registra a alteração na pressão sanguínea calculando (pressão após tratamento - pressão antes do tratamento) e a trata como a variável dependente em sua análise. Você então descobre que o efeito do tratamento (medicamento versus placebo) não é significativo, mas que a interceptação é significativamente maior que 0 - isso indica que, em média, a pressão sanguínea de seus pacientes aumentou entre os dois tempos de medição. Isso pode ser interessante e precisa de mais investigação.

Freya Harrison
fonte