Testando a não linearidade na regressão logística (ou outras formas de regressão)

13

Uma das suposições da regressão logística é a linearidade no logit. Então, uma vez que eu tenho meu modelo em funcionamento, testei a não-linearidade usando o teste Box-Tidwell. Um dos meus preditores contínuos (X) testou positivo para não-linearidade. O que devo fazer a seguir?

Como isso é uma violação das suposições, devo me livrar do preditor (X) ou incluir a transformação não linear (X * X). Ou transformar a variável em categórica? Se você tem uma referência, você também pode me indicar isso?

tosonb1
fonte

Respostas:

8

Sugiro usar splines cúbicos restritos ( rcsem R, consulte os pacotes Hmisc e Design para exemplos de uso), em vez de adicionar poder deXno seu modelo. Essa abordagem é a recomendada por Frank Harrell, por exemplo, e você encontrará uma boa ilustração nos folhetos (§2.5 e cap. 9) sobre Estratégias de modelagem de regressão (consulte o site do parceiro ).

Você pode comparar os resultados com o teste Box-Tidwell usando o pacote boxTidwell()no carro .

Transformar preditores contínuos em categóricos geralmente não é uma boa ideia, consulte, por exemplo, Problemas Causados ​​pela Categorização de Variáveis ​​Contínuas .

chl
fonte
5

Ele pode ser apropriado incluir uma transformação não-linear de x , mas provavelmente não simplesmente x × x , ou seja x 2 . Eu acredito que você pode achar isso uma referência útil para determinar qual transformação usar:

GEP Box e Paul W. Tidwell (1962). Transformação das Variáveis ​​Independentes. Technometrics Volume 4 Número 4, páginas 531-550. http://www.jstor.org/stable/1266288

Alguns consideram que a família de transformações Box-Tidwell é mais geral do que costuma ser apropriada para interpretabilidade e parcimônia. Patrick Royston e Doug Altman introduziram o termo polinômio fracionário para transformações de Box-Tidwell com poderes racionais simples em um influente artigo de 1994:

P. Royston e DG Altman (1994). Regressão usando polinômios fracionários de covariáveis ​​contínuas: modelagem paramétrica parcimoniosa. Estatística Aplicada, volume 43: páginas 429–467. http://www.jstor.org/stable/2986270

Patrick Royston, em particular, continuou trabalhando e publicando documentos e softwares sobre isso, culminando em um livro com Willi Sauerbrei:

P. Royston e W. Sauerbrei (2008). Construção de modelo multivariável: uma abordagem pragmática à análise de regressão baseada em polinômios fracionários para modelagem de variáveis ​​contínuas . Chichester, Reino Unido: Wiley. ISBN 978-0-470-02842-1

uma parada
fonte
4

Não se esqueça de verificar se há interações entre X e outras variáveis ​​independentes. Deixar as interações não modeladas pode fazer com que o X pareça ter um efeito não linear quando simplesmente tiver um efeito não aditivo.

conjugado
fonte
Bom ponto. Só me deparei com o inverso: supor que um efeito seja linear quando não for pode levar a evidências estatísticas espúrias para termos de interação multiplicativa.
onestop 29/10/10
1
@ onestop, você tem uma referência sobre isso? Acredito, mas estou tendo problemas para descobrir exatamente por que isso aconteceria.
Macro