Temos dados com resultado binário e algumas covariáveis. Eu usei regressão logística para modelar os dados. Apenas uma análise simples, nada de extraordinário. O resultado final deve ser uma curva dose-resposta, onde mostramos como a probabilidade muda para uma covariável específica. Algo assim:
Recebemos algumas críticas de um revisor interno (não um estatístico puro) por escolher a regressão logística. A regressão logística assume (ou define) que o ponto de inflexão da curva em forma de S na escala de probabilidade está na probabilidade 0,5. Ele argumentou que não haveria razão para supor que o ponto de inflexão estivesse na probabilidade de 0,5 e deveríamos escolher um modelo de regressão diferente que permita que o ponto de inflexão varie de modo que a posição real seja orientada por dados.
A princípio, fui pego de surpresa pelo argumento dele, pois nunca pensei sobre esse assunto. Eu não tinha argumentos para justificar a suposição de que o ponto de inflexão está em 0,5. Depois de fazer algumas pesquisas, ainda não tenho resposta para essa pergunta.
Me deparei com a regressão logística de 5 parâmetros, para a qual o ponto de inflexão é um parâmetro adicional, mas parece que esse modelo de regressão é geralmente usado ao produzir curvas dose-resposta com um resultado contínuo. Não tenho certeza se e como isso pode ser estendido para variáveis de resposta binária.
Eu acho que minha pergunta principal é por que ou quando não há problema em assumir que o ponto de inflexão para uma regressão logística é de 0,5? Isso importa? Nunca vi alguém ajustando um modelo de regressão logística e discutindo explicitamente a questão do ponto de inflexão. Existem alternativas para criar uma curva de resposta à dose em que o ponto de inflexão não esteja necessariamente em 0,5?
Apenas para completar, o código R para gerar a imagem acima:
dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")
Editar 1:
Apenas para acrescentar o que Scortchi disse em um dos comentários: o revisor de fato argumentou que biologicamente é mais provável que a alteração na curvatura ocorra antes de 0,5. Portanto, sua resistência contra assumir que o ponto de inflexão está em 0,5.
Edição 2:
Como reação ao comentário de Frank Harrell:
Como exemplo, modifiquei meu modelo acima para incluir um termo quadrático e um cúbico gre
(que é a "dose" neste exemplo).
logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+ gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")
Apesar de provavelmente não ser significativo adicionar termos quadrático e cúbico gre
nesse caso, vemos que a forma da curva dose-resposta mudou. De fato, agora temos dois pontos de inflexão em cerca de 0,25 e perto de 0,7.
Respostas:
Conforme abordado por @scortchi, o revisor estava operando com a falsa impressão de que não é possível modelar efeitos não lineares de preditores na escala logit no contexto da regressão logística. O modelo original foi rápido em assumir a linearidade de todos os preditores. Ao relaxar a suposição de linearidade, usando, por exemplo, splines cúbicos restritos (splines naturais), toda a forma da curva é flexível e o ponto de inflexão não é mais um problema. Se houvesse um único preditor e tivesse sido expandido usando um spline de regressão, pode-se dizer que o modelo logístico faz apenas as suposições de suavidade e independência das observações.
fonte
Parece-me que o revisor estava apenas procurando algo a dizer. Antes de examinar essas características da especificação como o ponto de inflexão implícita, há uma tonelada de pressupostos que temos feito, a fim de chegar a um modelo estimável. Tudo poderia ser questionado e debatido - o uso da função logística em si é um possível objetivo principal: quem nos disse que a distribuição condicional do termo de erro subjacente é logística? Ninguém.
Portanto, a questão é: o que significa a mudança de curvatura? Quão importante para o fenômeno do mundo real em estudo pode ser o ponto em que essa mudança de curvatura ocorre, para que possamos considerar torná-la "orientada a dados"? Afastando-se do princípio da parcimônia?
A questão não é "por que o ponto de inflexão deve estar em 0,5?" Mas "quão enganoso pode ser para nossas conclusões se for deixado em 0,5?".
fonte
No mho, a regressão logit é uma escolha razoável para resposta à dose. Obviamente, você pode usar o probit, log-log, c-log-link e comparar a qualidade do ajuste (DEV, BIC, CAIC, etc.). Mas a regressão logit mais simples fornece uma avaliação formal confortável do ponto de inflexão LD50 = -b0 / b1. Lembramos que é um ponto específico, para o qual obtemos a incerteza mínima (cf. LD16, LD84 e quaisquer outros terão um IC mais amplo, consulte "Análise de probit" de Finney, 1947, 1977). sempre (?) Era melhor usar o logaritmo da dose e depois converter o IC95% na escala original.Qual é a natureza das outras covariáveis do modelo? Aludi à possibilidade de usar a abordagem multi-modelo ... Certamente os Splines são flexíveis, mas os paramétricos formais são interpretados com mais facilidade!
Consulte http://www.epa.gov/ncea/bmds/bmds_training/software/overp.htm
fonte
O ponto de inflexão 0,5 é uma pequena parte de uma questão maior: a equação logística é simétrica por construção. E na maioria das derivações, o efeito modelado tem um motivo para ser simétrico. por exemplo, quando um jogador vence, o outro perde, ou o efeito responsável pela saturação é o mesmo efeito físico responsável pelo crescimento inicial, etc. como a mão direita se comporta ou por qualquer outro motivo, o problema é simétrico, então você tem sua justificativa.
caso contrário, talvez o próximo modelo mais simples seja a equação logística generalizada. ele tem mais parâmetros e você pode adicionar uma restrição para que eles não sejam todos parâmetros livres. isso provavelmente é mais desejável do que os argumentos que você adicionou, porque estão adicionando prateleiras em que a primeira derivada está oscilando para frente e para trás - esse tipo de coisa tende a criar pontos falsos ficcionais de equilíbrio local, se você estiver tentando otimizar algum valor esperado distribuição. a forma generalizada irá quebrar a simetria, mas de maneira suave.
fonte