Regressão logística e ponto de inflexão

12

Temos dados com resultado binário e algumas covariáveis. Eu usei regressão logística para modelar os dados. Apenas uma análise simples, nada de extraordinário. O resultado final deve ser uma curva dose-resposta, onde mostramos como a probabilidade muda para uma covariável específica. Algo assim:

insira a descrição da imagem aqui

Recebemos algumas críticas de um revisor interno (não um estatístico puro) por escolher a regressão logística. A regressão logística assume (ou define) que o ponto de inflexão da curva em forma de S na escala de probabilidade está na probabilidade 0,5. Ele argumentou que não haveria razão para supor que o ponto de inflexão estivesse na probabilidade de 0,5 e deveríamos escolher um modelo de regressão diferente que permita que o ponto de inflexão varie de modo que a posição real seja orientada por dados.

A princípio, fui pego de surpresa pelo argumento dele, pois nunca pensei sobre esse assunto. Eu não tinha argumentos para justificar a suposição de que o ponto de inflexão está em 0,5. Depois de fazer algumas pesquisas, ainda não tenho resposta para essa pergunta.

Me deparei com a regressão logística de 5 parâmetros, para a qual o ponto de inflexão é um parâmetro adicional, mas parece que esse modelo de regressão é geralmente usado ao produzir curvas dose-resposta com um resultado contínuo. Não tenho certeza se e como isso pode ser estendido para variáveis ​​de resposta binária.

Eu acho que minha pergunta principal é por que ou quando não há problema em assumir que o ponto de inflexão para uma regressão logística é de 0,5? Isso importa? Nunca vi alguém ajustando um modelo de regressão logística e discutindo explicitamente a questão do ponto de inflexão. Existem alternativas para criar uma curva de resposta à dose em que o ponto de inflexão não esteja necessariamente em 0,5?

Apenas para completar, o código R para gerar a imagem acima:

dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")

Editar 1:

Apenas para acrescentar o que Scortchi disse em um dos comentários: o revisor de fato argumentou que biologicamente é mais provável que a alteração na curvatura ocorra antes de 0,5. Portanto, sua resistência contra assumir que o ponto de inflexão está em 0,5.

Edição 2:

Como reação ao comentário de Frank Harrell:

Como exemplo, modifiquei meu modelo acima para incluir um termo quadrático e um cúbico gre(que é a "dose" neste exemplo).

logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+  gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")

insira a descrição da imagem aqui

Apesar de provavelmente não ser significativo adicionar termos quadrático e cúbico grenesse caso, vemos que a forma da curva dose-resposta mudou. De fato, agora temos dois pontos de inflexão em cerca de 0,25 e perto de 0,7.

Francis
fonte
2
Isso não é o mesmo que pedir para investigar relações não lineares de preditores com as chances de resposta logarítmica?
Scortchi - Restabelecer Monica

Respostas:

8

Conforme abordado por @scortchi, o revisor estava operando com a falsa impressão de que não é possível modelar efeitos não lineares de preditores na escala logit no contexto da regressão logística. O modelo original foi rápido em assumir a linearidade de todos os preditores. Ao relaxar a suposição de linearidade, usando, por exemplo, splines cúbicos restritos (splines naturais), toda a forma da curva é flexível e o ponto de inflexão não é mais um problema. Se houvesse um único preditor e tivesse sido expandido usando um spline de regressão, pode-se dizer que o modelo logístico faz apenas as suposições de suavidade e independência das observações.

Frank Harrell
fonte
Eu tenho que admitir que não estou muito familiarizado com a regressão spline. Como eu gostaria de fazer isso em conjunto com a regressão logística (em R). Modifiquei minha postagem original (editar 2) para incluir termos polinomiais no preditor. Eu poderia usar isso como alternativa para suavizar spline. É claro que não tenho a mesma flexibilidade que teria com splines.
26813 Francis
1
@Franco: As estratégias de modelagem de regressão de Frank Harrell - livro , site , pacote R - devem ajudá-lo. Uma breve discussão de algumas das vantagens dos splines de regressão está aqui ; mas você está certo, é claro, que os polinômios são uma alternativa.
Scortchi - Reinstate Monica
4

Parece-me que o revisor estava apenas procurando algo a dizer. Antes de examinar essas características da especificação como o ponto de inflexão implícita, há uma tonelada de pressupostos que temos feito, a fim de chegar a um modelo estimável. Tudo poderia ser questionado e debatido - o uso da função logística em si é um possível objetivo principal: quem nos disse que a distribuição condicional do termo de erro subjacente é logística? Ninguém.

Portanto, a questão é: o que significa a mudança de curvatura? Quão importante para o fenômeno do mundo real em estudo pode ser o ponto em que essa mudança de curvatura ocorre, para que possamos considerar torná-la "orientada a dados"? Afastando-se do princípio da parcimônia?

A questão não é "por que o ponto de inflexão deve estar em 0,5?" Mas "quão enganoso pode ser para nossas conclusões se for deixado em 0,5?".

Alecos Papadopoulos
fonte
2
Isso parece um pouco caridoso. Não sabemos que o revisor não tinha boas razões para contestar essa suposição, em vez de outras que ele poderia ter contestado. Deixe de um lado uma maneira estranha de colocá-lo em termos de pontos de inflexão, e um possível equívoco sobre regressão logística, e ele está basicamente perguntando por que o modelo permite que a curva se desloque e se estique, mas não se dobre, o que poderia ser uma resposta merecedora.
Scortchi - Restabelece Monica
@ Scortchi "maneira estranha de dizer" ... "um possível equívoco sobre regressão logística" ... Se é isso que é necessário para racionalizar a crítica do revisor, ele não deveria ter revisado o artigo, afinal.
Alecos Papadopoulos
1
Tal como acontece com @ Scortchi, acho isso um pouco nítido. Muitas das pessoas mais ativas aqui têm formação em várias ciências, em vez de estatísticas convencionais. Ser estatístico, puro ou não, não é essencial nem suficiente para dar bons conselhos (embora em quase todos os casos manifestamente ajude).
Nick Cox
@ Nick Cox Eu aceito a "nitidez" e acabei de excluir minha última frase, como um sinal de consenso. O que quero dizer é que questionar de maneira geral as suposições de um modelo não tem valor - os modelos são sempre falsos. Portanto, se a probabilidade de a curvatura mudar é de alguma forma crítica para o fenômeno do mundo real em estudo, o revisor estava muito certo ao pedir que esse ponto se tornasse orientado por dados. Mas se o revisor apenas comentou "por que em p = 0,5 e não em outro lugar?", Esse comentário não é construtivo.
Alecos Papadopoulos
2
Obrigado por isso. Concordo com sua posição geral: (a) discussão dos méritos de diferentes abordagens e (b) discussão de como devemos discutir essas duas coisas. Comentários sobre indivíduos ou até grupos, em contraste, geralmente não são úteis (embora eu também às vezes cruze a linha exasperado ...).
Nick Cox
0

No mho, a regressão logit é uma escolha razoável para resposta à dose. Obviamente, você pode usar o probit, log-log, c-log-link e comparar a qualidade do ajuste (DEV, BIC, CAIC, etc.). Mas a regressão logit mais simples fornece uma avaliação formal confortável do ponto de inflexão LD50 = -b0 / b1. Lembramos que é um ponto específico, para o qual obtemos a incerteza mínima (cf. LD16, LD84 e quaisquer outros terão um IC mais amplo, consulte "Análise de probit" de Finney, 1947, 1977). sempre (?) Era melhor usar o logaritmo da dose e depois converter o IC95% na escala original.Qual é a natureza das outras covariáveis ​​do modelo? Aludi à possibilidade de usar a abordagem multi-modelo ... Certamente os Splines são flexíveis, mas os paramétricos formais são interpretados com mais facilidade!

Consulte http://www.epa.gov/ncea/bmds/bmds_training/software/overp.htm

Ivan Kshnyasev
fonte
0

O ponto de inflexão 0,5 é uma pequena parte de uma questão maior: a equação logística é simétrica por construção. E na maioria das derivações, o efeito modelado tem um motivo para ser simétrico. por exemplo, quando um jogador vence, o outro perde, ou o efeito responsável pela saturação é o mesmo efeito físico responsável pelo crescimento inicial, etc. como a mão direita se comporta ou por qualquer outro motivo, o problema é simétrico, então você tem sua justificativa.

caso contrário, talvez o próximo modelo mais simples seja a equação logística generalizada. ele tem mais parâmetros e você pode adicionar uma restrição para que eles não sejam todos parâmetros livres. isso provavelmente é mais desejável do que os argumentos que você adicionou, porque estão adicionando prateleiras em que a primeira derivada está oscilando para frente e para trás - esse tipo de coisa tende a criar pontos falsos ficcionais de equilíbrio local, se você estiver tentando otimizar algum valor esperado distribuição. a forma generalizada irá quebrar a simetria, mas de maneira suave.

Charlie Strauss
fonte