Estou usando uma regressão logística binomial para identificar se a exposição has_x
ou has_y
afeta a probabilidade de um usuário clicar em algo. Meu modelo é o seguinte:
fit = glm(formula = has_clicked ~ has_x + has_y,
data=df,
family = binomial())
Esta é a saída do meu modelo:
Call:
glm(formula = has_clicked ~ has_x + has_y,
family = binomial(), data = active_domains)
Deviance Residuals:
Min 1Q Median 3Q Max
-0.9869 -0.9719 -0.9500 1.3979 1.4233
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.504737 0.008847 -57.050 < 2e-16 ***
has_xTRUE -0.056986 0.010201 -5.586 2.32e-08 ***
has_yTRUE 0.038579 0.010202 3.781 0.000156 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 217119 on 164182 degrees of freedom
Residual deviance: 217074 on 164180 degrees of freedom
AIC: 217080
Number of Fisher Scoring iterations: 4
Como cada coeficiente é significativo, usando esse modelo, sou capaz de dizer qual é o valor de qualquer uma dessas combinações usando a seguinte abordagem:
predict(fit, data.frame(has_x = T, has_y=T), type = "response")
Não entendo como posso reportar sobre o DST. Erro da previsão.
Eu só preciso usar ? Ou preciso converter o usando uma abordagem descrita aqui ?
Se eu quiser entender o erro padrão das duas variáveis, como eu consideraria isso?
Diferentemente desta questão , estou interessado em entender quais são os limites superior e inferior do erro em uma porcentagem. Por exemplo, da minha previsão mostra um valor de 37%, pois True,True
posso calcular que isso é para um ? (0,3% escolhido para ilustrar meu argumento)
fonte
Respostas:
Sua pergunta pode vir do fato de você estar lidando com probabilidades e probabilidades, o que é confuso no início. Como o modelo logístico é uma transformação não linear da computação os intervalos de confiança não são tão diretos.βTx
fundo
Lembre-se de que, para o modelo de regressão logística
Probabilidade de :p = e α + β 1 x 1 + β 2 x 2( Y= 1 ) p = eα + β1x1+ β2x21 + eα + β1x1+ β2x2
Probabilidades de :( p( Y= 1 ) ( p1 - p) = eα + β1x1+ β2x2
Probabilidades de log de :log ( p( Y= 1 ) registro( p1 - p) =α+ β1x1+ β2x2
Considere o caso em que você tem um aumento de uma unidade na variável , ou seja, , as novas chances sãox 1 + 1x1 x1+ 1
Proporção de probabilidades de log =β1
Risco relativo ou (razão de probabilidade) =eα + β1x1+ β1+ β2x21 + eα + β1x1+ β1+ β2x2eα + β1x1+ β2x21 + eα + β1x1+ β2x2
Interpretação de coeficientes
Como você interpretaria o valor do coeficiente ? Supondo que tudo o resto permaneça fixo:βj
Intervalos de confiança para um único parâmetroβj
Como o parâmetro é estimado usando a Estimativa Máxima de Verossimilhança, a teoria do MLE nos diz que é assintoticamente normal e, portanto, podemos usar o grande intervalo de confiança da amostra de Wald para obter o valor usual.βj
O que fornece um intervalo de confiança na razão de chances de log. O uso da propriedade invariância do MLE nos permite exponenciar para obter
que é um intervalo de confiança no odds ratio. Observe que esses intervalos são apenas para um único parâmetro.
Se você incluir vários parâmetros, poderá usar o procedimento de Bonferroni; caso contrário, para todos os parâmetros, poderá usar o intervalo de confiança para estimativas de probabilidade
Procedimento de Bonferroni para vários parâmetros
Se os parâmetros devem ser estimados com coeficiente de confiança da família de aproximadamente , os limites de confiança de Bonferroni sãog 1−α
Intervalos de confiança para estimativas de probabilidade
O modelo logístico gera uma estimativa da probabilidade de observação de um e pretendemos construir um intervalo freqüencial em torno da probabilidade verdadeira modo quep Pr(pL≤p≤pU)=.95
Uma abordagem chamada transformação de terminal faz o seguinte:
Como é uma transformação monotônica dePr(xTβ)=F(xTβ) xTβ
Concretamente, isso significa calcular e aplicar a conversão logit ao resultado para obter os limites inferior e superior:βTx±z∗SE(βTx)
A variação aproximada estimada de pode ser calculada usando a matriz de covariância dos coeficientes de regressão usandoxTβ
A vantagem deste método é que os limites não podem estar fora da faixa(0,1)
Também existem várias outras abordagens, usando o método delta, bootstrapping etc., cada um com suas próprias suposições, vantagens e limites.
Fontes e informações
Meu livro favorito sobre esse tópico é "Modelos estatísticos lineares aplicados", de Kutner, Neter, Li, capítulo 14
Caso contrário, aqui estão algumas fontes online:
fonte
Para obter o intervalo de confiança de 95% da previsão, você pode calcular na escala de logit e depois convertê-los novamente na escala de probabilidade 0-1. Aqui está um exemplo usando o conjunto de dados titânico.
O IC médio e baixo / alto de 95%.
E a saída de apenas usar
type='response'
, o que apenas dá a médiafonte
predict(fit, data.frame(Sex='male', Pclass='First'), type='response', se.fit=TRUE)
vai funcionar.