Estou confuso com a suposição de linearidade ao logit para variáveis preditivas contínuas na análise de regressão logística. Precisamos verificar a relação linear ao rastrear possíveis preditores usando análise de regressão logística univariada?
No meu caso, estou usando a análise de regressão logística múltipla para identificar fatores associados ao estado nutricional (resultado dicotômico) entre os participantes. As variáveis contínuas, incluindo idade, escore de comorbidade de Charlson, índice de Barthel, força de preensão manual, escore de GDS, IMC etc. Meu primeiro passo é rastrear variáveis significativas usando regressão logística simples. Preciso verificar a suposição de linearidade durante análises de regressão logística simples para cada variável contínua? Ou devo apenas verificar isso no modelo final de regressão logística múltipla?
Além disso, para meu entendimento, precisamos transformar a variável contínua não linear antes de inseri-la no modelo. Posso categorizar a variável contínua não linear em vez de transformação?
fonte
Respostas:
Como descrevo em detalhes em meu livro Regression Modeling Strategies (2ª edição disponível em 04/09/2015, e-book disponível agora), o processo de tentativa de transformar variáveis antes da modelagem está repleto de problemas, sendo um dos mais importantes a distorção do erro do tipo I e intervalos de confiança. A categorização causa problemas ainda mais graves, especialmente falta de adequação e arbitrariedade.
Em vez de pensar nisso como um problema de "verificação da falta de ajuste", é melhor pensar nele como especificando um modelo que provavelmente se encaixa. Uma maneira de fazer isso é alocar parâmetros para as partes do modelo que provavelmente são fortes e cuja linearidade ainda não é conhecida como uma suposição razoável. Nesse processo, examina-se o tamanho efetivo da amostra (no seu caso, o mínimo do número de eventos e do número de não-eventos) e permite a complexidade na medida em que o conteúdo das informações dos dados permite (usando, por exemplo, a regra 15: 1 events: parameter polegar). Ao pré-especificar um modelo paramétrico aditivo flexível, um só estará errado quando for importante, omitindo interações importantes. As interações devem ser pré-especificadas, de um modo geral.
Você pode verificar se a não linearidade era necessária no modelo com um teste formal (facilitado com o R
rms
pacote ), mas a remoção desses termos quando insignificante cria as distorções inferenciais descritas acima.Mais detalhes podem ser encontrados nas notas do curso vinculadas a http://biostat.mc.vanderbilt.edu/rms .
fonte
A regressão logística NÃO assume uma relação linear entre as variáveis dependentes e independentes. Ele assume uma relação linear entre as probabilidades de log da variável dependente e as variáveis independentes (isso é principalmente um problema com variáveis independentes contínuas.) Há um teste chamado Box-Tidwell que você pode usar para isso. O comando stata é boxtid. Não conheço o comando SPSS, desculpe.
Isso pode ser útil - http://www.ats.ucla.edu/stat/stata/webbooks/logistic/chapter3/statalog3.htm
fonte
Penso que devemos traçar variáveis contínuas e verificar a linearidade antes de usá-las em um modelo de regressão. Se a linearidade parecer uma suposição razoável, acho que isso provavelmente ainda será válido no modelo final de regressão multivariável na maioria dos casos; caso contrário, acho que isso pode ser causado principalmente pelos efeitos de interação que você pode corrigir.
Sim, categorizar variáveis contínuas não lineares é uma opção. Os problemas com isso são que as categorias podem parecer arbitrárias na maioria dos casos, e pequenas diferenças nas pontuações de corte entre categorias podem levar a resultados diferentes (especialmente no que diz respeito à significância estatística) e, dependendo do número de categorias e do tamanho dos seus dados. , você pode perder muitas informações valiosas nos dados.
Uma abordagem alternativa é usar um modelo aditivo generalizado, que é um modelo de regressão que pode ser especificado como regressão logística, mas no qual você pode incluir variáveis independentes não lineares como "funções mais suaves". Tecnicamente, isso não é muito complicado no R, mas não conheço outros pacotes de software. Esses modelos identificarão relações não lineares com as variáveis dependentes, mas uma desvantagem é que você não apresentará números puros e organizados em sua saída, mas sim uma curva visual que é testada quanto à significância estatística. Portanto, depende do seu interesse em quantificar o efeito da variável não linear na variável de resultado.
Finalmente, você pode usar modelos aditivos generalizados, conforme descrito acima, para testar as suposições de linearidade em seu modelo de regressão logística, pelo menos se você usar R.
Dê uma olhada neste livro (um campo muito diferente do seu e do meu, mas isso não importa): http://www.amazon.com/Effects-Extensions-Ecology-Statistics-Biology/dp/0387874577 / ref = sr_1_1? ie = UTF8 & qid = 1440928328 & sr = 8-1 & keywords = zuur + ecologia
fonte
Como não conheço seus dados, não sei se combinar essas três variáveis - a variável básica, seu log natural e um termo interativo - será um problema. No entanto, sei que no passado, quando considerei combinar três termos, geralmente perco a noção conceitual do que estou medindo. Você precisa ter uma boa noção do que está medindo ou terá problemas para explicar suas descobertas. Espero que ajude!
fonte