Investigando a robustez da regressão logística contra a violação da linearidade do logit

10

Estou conduzindo uma regressão logística com um resultado binário (iniciar e não iniciar). Minha mistura de preditores são todas variáveis ​​contínuas ou dicotômicas.

Usando a abordagem Box-Tidwell, um dos meus preditores contínuos viola potencialmente a suposição de linearidade do logit. Não há indicação de que as estatísticas de qualidade de ajuste sejam problemáticas.

Posteriormente, executei o modelo de regressão novamente, substituindo a variável contínua original por: primeiro, uma transformação de raiz quadrada e, segundo, uma versão dicotômica da variável.

Na inspeção do produto, parece que a qualidade do ajuste melhora marginalmente, mas os resíduos se tornam problemáticos. Estimativas de parâmetros, erros padrão e permanecem relativamente semelhantes. A interpretação dos dados não muda em termos de minha hipótese, nos três modelos.exp(β)

Portanto, em termos de utilidade dos meus resultados e senso de interpretação dos dados, parece apropriado relatar o modelo de regressão usando a variável contínua original.

Eu estou querendo saber isso:

  1. Quando a regressão logística é robusta contra a possível violação da linearidade da suposição de logit?
  2. Dado o meu exemplo acima, parece aceitável incluir a variável contínua original no modelo?
  3. Existem referências ou guias para recomendar quando é satisfatório aceitar que o modelo é robusto contra a possível violação da linearidade do logit?
Elizabeth curta
fonte

Respostas:

16

A suposição de linearidade é tão comumente violada na regressão que deve ser chamada de surpresa e não de suposição. Como outros modelos de regressão, o modelo logístico não é robusto à não linearidade quando você assume falsamente a linearidade. Em vez de detectar a não-linearidade usando resíduos ou testes de qualidade omnibus, é melhor usar testes diretos. Por exemplo, expanda preditores contínuos usando splines de regressão e faça um teste composto de todos os termos não lineares. Melhor ainda, não teste os termos e apenas espere não-linearidade. Essa abordagem é muito melhor do que tentar diferentes escolhas de transformações de inclinação única, como raiz quadrada, log, etc., porque a inferência estatística surge após essas análises estarem incorretas porque não possui graus de liberdade numeradores suficientemente grandes.

Aqui está um exemplo em R.

require(rms)
f <- lrm(y ~ rcs(age,4) + rcs(blood.pressure,5) + sex + rcs(height,4))
# Fits restricted cubic splines in 3 variables with default knots
# 4, 5, 4 knots = 2, 3, 2 nonlinear terms
Function(f)   # display algebraic form of fit
anova(f)      # obtain individual + combined linearity tests
Frank Harrell
fonte
Sua resposta faz um sentido fantástico - obrigado! Você poderia sugerir a sintaxe a ser usada no SPSS? Infelizmente, não tenho acesso (ou habilidades) para utilizar R.
Short Elizabeth
11
Definitivamente, vale a pena aprender R, e eu tenho muitas apostilas relacionadas à modelagem logística e ao pacote rms. Isso seria difícil de fazer no SPSS.
precisa
@FrankHarrell: a f <- lrm(y ~ ...linha dá um erro object 'y' not found- você pode consertar?
Arielf
11
Esse é um erro R muito básico, não exclusivo do meu rmspacote. Passe algum tempo conhecendo R, começando com material extensivo disponível para a lmfunção de regressão básica .
precisa
11
Os exemplos incorporados às páginas de ajuda do software simulam esses dados, portanto, observe o exemplo inteiro no contexto. Fazer require(rms), em seguida, ?lrmem seguida,examples(lrm)
Frank Harrell