Como devo verificar a suposição de linearidade para o logit para variáveis ​​independentes contínuas na análise de regressão logística?

13

Estou confuso com a suposição de linearidade ao logit para variáveis ​​preditivas contínuas na análise de regressão logística. Precisamos verificar a relação linear ao rastrear possíveis preditores usando análise de regressão logística univariada?

No meu caso, estou usando a análise de regressão logística múltipla para identificar fatores associados ao estado nutricional (resultado dicotômico) entre os participantes. As variáveis ​​contínuas, incluindo idade, escore de comorbidade de Charlson, índice de Barthel, força de preensão manual, escore de GDS, IMC etc. Meu primeiro passo é rastrear variáveis ​​significativas usando regressão logística simples. Preciso verificar a suposição de linearidade durante análises de regressão logística simples para cada variável contínua? Ou devo apenas verificar isso no modelo final de regressão logística múltipla?

Além disso, para meu entendimento, precisamos transformar a variável contínua não linear antes de inseri-la no modelo. Posso categorizar a variável contínua não linear em vez de transformação?

Sze Lin Tan
fonte
1
Você não deve categorizar, é melhor tentar splines!
Kjetil b halvorsen

Respostas:

11

Como descrevo em detalhes em meu livro Regression Modeling Strategies (2ª edição disponível em 04/09/2015, e-book disponível agora), o processo de tentativa de transformar variáveis ​​antes da modelagem está repleto de problemas, sendo um dos mais importantes a distorção do erro do tipo I e intervalos de confiança. A categorização causa problemas ainda mais graves, especialmente falta de adequação e arbitrariedade.

Em vez de pensar nisso como um problema de "verificação da falta de ajuste", é melhor pensar nele como especificando um modelo que provavelmente se encaixa. Uma maneira de fazer isso é alocar parâmetros para as partes do modelo que provavelmente são fortes e cuja linearidade ainda não é conhecida como uma suposição razoável. Nesse processo, examina-se o tamanho efetivo da amostra (no seu caso, o mínimo do número de eventos e do número de não-eventos) e permite a complexidade na medida em que o conteúdo das informações dos dados permite (usando, por exemplo, a regra 15: 1 events: parameter polegar). Ao pré-especificar um modelo paramétrico aditivo flexível, um só estará errado quando for importante, omitindo interações importantes. As interações devem ser pré-especificadas, de um modo geral.

Você pode verificar se a não linearidade era necessária no modelo com um teste formal (facilitado com o R rms pacote ), mas a remoção desses termos quando insignificante cria as distorções inferenciais descritas acima.

Mais detalhes podem ser encontrados nas notas do curso vinculadas a http://biostat.mc.vanderbilt.edu/rms .

Frank Harrell
fonte
Desculpe por não ter mencionado anteriormente, mas não estou familiarizado com o R e estava usando o SPSS para as análises. A partir da solução fornecida, significa que, se eu usar o tamanho efetivo da amostra (15: 1), posso incluir todos os fatores importantes (da revisão) sem verificar sua linearidade?
Sze Lin Tan
A partir das análises univariáveis ​​de regressão logística que fiz no meu caso, IMC, circunferência da panturrilha e circunferência do braço superior estão contribuindo significativamente para o modelo de regressão logística simples do estado nutricional (p <0,05). Mas eles descobriram que não atendiam à suposição de linearidade quando verifico a suposição usando a abordagem de Box-Tidwell (para cada modelo logístico simples). Portanto, não tenho certeza se devo proceder à análise de regressão logística múltipla com esses preditores ou não.
Sze Lin Tan
5
É inválido construir modelos com base em análises univariáveis. Você está usando uma variante para encaminhar a regressão passo a passo, conhecida por causar uma série de problemas.
Frank Harrell
8

A regressão logística NÃO assume uma relação linear entre as variáveis ​​dependentes e independentes. Ele assume uma relação linear entre as probabilidades de log da variável dependente e as variáveis ​​independentes (isso é principalmente um problema com variáveis ​​independentes contínuas.) Há um teste chamado Box-Tidwell que você pode usar para isso. O comando stata é boxtid. Não conheço o comando SPSS, desculpe.

Isso pode ser útil - http://www.ats.ucla.edu/stat/stata/webbooks/logistic/chapter3/statalog3.htm

user114667
fonte
O link está quebrado agora.
Alexey Shrub
1

Penso que devemos traçar variáveis ​​contínuas e verificar a linearidade antes de usá-las em um modelo de regressão. Se a linearidade parecer uma suposição razoável, acho que isso provavelmente ainda será válido no modelo final de regressão multivariável na maioria dos casos; caso contrário, acho que isso pode ser causado principalmente pelos efeitos de interação que você pode corrigir.

Sim, categorizar variáveis ​​contínuas não lineares é uma opção. Os problemas com isso são que as categorias podem parecer arbitrárias na maioria dos casos, e pequenas diferenças nas pontuações de corte entre categorias podem levar a resultados diferentes (especialmente no que diz respeito à significância estatística) e, dependendo do número de categorias e do tamanho dos seus dados. , você pode perder muitas informações valiosas nos dados.

Uma abordagem alternativa é usar um modelo aditivo generalizado, que é um modelo de regressão que pode ser especificado como regressão logística, mas no qual você pode incluir variáveis ​​independentes não lineares como "funções mais suaves". Tecnicamente, isso não é muito complicado no R, mas não conheço outros pacotes de software. Esses modelos identificarão relações não lineares com as variáveis ​​dependentes, mas uma desvantagem é que você não apresentará números puros e organizados em sua saída, mas sim uma curva visual que é testada quanto à significância estatística. Portanto, depende do seu interesse em quantificar o efeito da variável não linear na variável de resultado.

Finalmente, você pode usar modelos aditivos generalizados, conforme descrito acima, para testar as suposições de linearidade em seu modelo de regressão logística, pelo menos se você usar R.

Dê uma olhada neste livro (um campo muito diferente do seu e do meu, mas isso não importa): http://www.amazon.com/Effects-Extensions-Ecology-Statistics-Biology/dp/0387874577 / ref = sr_1_1? ie = UTF8 & qid = 1440928328 & sr = 8-1 & keywords = zuur + ecologia

JonB
fonte
Não estou familiarizado com R e estava usando o SPSS para as análises. Desculpe por não ter mencionado anteriormente. Posso usar a abordagem Box-Tidwell (criando um termo de interação entre a variável contínua e seu próprio log natural e adicionando o termo de interação ao modelo) para verificar a suposição de linearidade?
precisa
1

Como não conheço seus dados, não sei se combinar essas três variáveis ​​- a variável básica, seu log natural e um termo interativo - será um problema. No entanto, sei que no passado, quando considerei combinar três termos, geralmente perco a noção conceitual do que estou medindo. Você precisa ter uma boa noção do que está medindo ou terá problemas para explicar suas descobertas. Espero que ajude!

user114667
fonte