Estou estudando como construir um intervalo de confiança de 95% para odds ratio a partir dos coeficientes obtidos na regressão logística. Portanto, considerando o modelo de regressão logística,
de tal modo que para o grupo de controlo e para o caso do grupo.
Eu já li que a maneira mais simples é construir um IC 95% para e aplicamos a função exponencial, ou seja,
Minhas perguntas são:
Qual o motivo teórico que justifica esse procedimento? Eu sei e estimadores de probabilidade máxima são invariantes. No entanto, não conheço a conexão entre esses elementos.
O método delta deve produzir o mesmo intervalo de confiança de 95% que o procedimento anterior? Usando o método delta,
Então,
Caso contrário, qual é o melhor procedimento?
logistic
confidence-interval
odds-ratio
delta-method
Márcio Augusto Diniz
fonte
fonte
Respostas:
A justificativa para o procedimento é a normalidade assintótica do LEM paraβ e resulta de argumentos envolvendo o Teorema do Limite Central.
O método Delta vem de uma expansão linear (ie Taylor de primeira ordem) da função ao redor do MLE. Posteriormente, apelamos para a normalidade assintótica e imparcialidade do MLE.
Assintoticamente, ambos dão a mesma resposta. Mas, na prática, você preferiria o que parece mais normal. Neste exemplo, eu preferiria o primeiro porque é provável que o último seja menos simétrico.
fonte
Uma comparação de métodos de intervalos de confiança em um exemplo do ISL
O livro "Introdução à aprendizagem estatística", de Tibshirani, James, Hastie, fornece um exemplo na página 267 de intervalos de confiança para o grau de regressão logística polinomial 4 nos dados salariais . Citando o livro:
Abaixo está uma rápida recapitulação de dois métodos para construir esses intervalos, bem como comentários sobre como implementá-los do zero
Intervalos de transformação Wald / Endpoint
Como é uma transformação monotônica de x T βPr(xTβ)=F(xTβ) xTβ
Concretamente, isso significa calcular e depois aplicar a conversão logit ao resultado para obter os limites inferior e superior:βTx±z∗SE(βTx)
Computando o erro padrão
Define the design matrixX and the matrix V as
wherexi,j is the value of the j th variable for the i th observations and π^i represents the predicted probability for observation i .
The covariance matrix can then be found as:Σ=(XTVX)−1 and the standard error as SE(xTβ)=Var(xTβ)−−−−−−−−√
The 95% confidence intervals for the predicted probability can then be plotted as
Delta method confidence intervals
The approach is to compute the variance of a linear approximation of the functionF and use this to construct large sample confidence intervals.
Where∇ is the gradient and Σ the estimated covariance matrix. Note that in one dimension:
Wheref is the derivative of F . This generalizes in the multivariate case
In our case F is the logistic function (which we will denoteπ(xTβ) ) whose derivative is
We can now construct a confidence interval using the variance computed above.
In vector form for the multivariate case
A open ended conclusion
A look at the Normal QQ plots for both the probabilities and the negative log odds show that neither are normally distributed. Could this explain the difference ?
Source:
fonte
For most purposes the simplest way is probably best, as discussed in the context of a log transform on this page. Think about your dependent variable as being analyzed in the logit scale, with statistical tests performed and confidence intervals (CI) defined on that logit scale. The back transformation to odds ratio is simply to put those results into a scale that a reader might more readily grasp. This is also done, for example, in Cox survival analysis, where the regression coefficients (and the 95% CI) are exponentiated to obtain hazard ratios and their CI.
fonte