Transformar variáveis ​​contínuas para regressão logística

11

Tenho dados de pesquisas grandes, uma variável de resultado binário e muitas variáveis ​​explicativas, incluindo binárias e contínuas. Estou construindo conjuntos de modelos (experimentando com GLM e GLM misto) e usando abordagens teóricas da informação para selecionar o modelo superior. Examinei cuidadosamente as explicações (contínuas e categóricas) para correlações e só estou usando aquelas no mesmo modelo que possuem um coeficiente de Pearson ou Phicorr menor que 0,3. Eu gostaria de dar a todas as minhas variáveis ​​contínuas uma chance justa de competir pelo modelo principal. Na minha experiência, transformar aqueles que precisam dele com base na inclinação aprimora o modelo em que eles participam (AIC inferior).

Minha primeira pergunta é: essa melhoria é porque a transformação melhora a linearidade com o logit? Ou a correção da inclinação melhora o equilíbrio das variáveis ​​explicativas de alguma forma, tornando os dados mais simétricos? Eu gostaria de entender as razões matemáticas por trás disso, mas por enquanto, se alguém pudesse explicar isso em termos fáceis, isso seria ótimo. Se você tiver alguma referência que eu possa usar, eu realmente aprecio isso.

Muitos sites dizem que, como a normalidade não é uma suposição na regressão logística binária, não transforme as variáveis. Mas sinto que, ao não transformar minhas variáveis, deixo algumas em desvantagem em comparação com outras, e isso pode afetar o modelo principal e alterar a inferência (bem, normalmente não, mas em alguns conjuntos de dados). Algumas de minhas variáveis ​​têm melhor desempenho quando transformadas em log, outras quando ao quadrado (direção diferente da inclinação) e outras não transformadas.

Alguém poderia me dar uma orientação sobre o que ter cuidado ao transformar variáveis ​​explicativas para regressão logística e, se não o fizer, por que não?

Zsuzsa
fonte
2
FF-1 11 10 0P(Y=1 1|β,X)=F(Xβ)este trabalho .
Embora escrito em um contexto diferente, muito do que você está solicitando está na minha resposta (ou nos links da minha resposta) aqui: Normalmente são distribuídos X e Y com maior probabilidade de resultar em resíduos normalmente distribuídos?
gung - Restabelece Monica

Respostas:

3

xregistro(x)

Como você diz que possui "dados grandes", pode procurar splines, para permitir que os dados falem sobre transformações ... por exemplo, empacote mgcv em R. Mas, mesmo usando essa tecnologia (ou outros métodos para procurar transformações automaticamente), o O teste final é perguntar-se o que faz sentido cientificamente . ¿O que outras pessoas em seu campo fazem com dados semelhantes?

kjetil b halvorsen
fonte
Obrigado por apoiar minhas preocupações: de fato, tenho pensado sobre o que faz sentido biológico. O problema é que eu realmente tenho dois conjuntos de dados relacionados e gostaria de tirar conclusões de ambos ao mesmo tempo. Mas em um subconjunto, a variável de densidade é melhor nos modelos não transformados, enquanto na outra transformação de log é a melhor. A transformação de log melhora o relacionamento no conjunto de dados que tem os valores mais baixos para essa variável, portanto, será muito difícil conciliar esses dois conjuntos de dados, a menos que eu deixe a variável não transformada em ambos.
Zsuzsa
11
Os especialistas em um campo raramente são capazes de conhecer a priori as transformações "corretas" para variáveis. Quase nunca vejo relações lineares, portanto, quando o tamanho da amostra justifica, relaxo essa suposição usando splines de regressão. Eu faço o resultado interpretável com fotos.
31714 Frank Frankell
3

A questão crítica é quais são os números que devem representar no mundo real e qual é a hipótese da relação entre essas variáveis ​​e a variável dependente. Você pode melhorar seu modelo 'limpando' seus dados, mas se isso não refletir melhor o mundo real, você não terá êxito. Talvez as distribuições de seus dados signifiquem que sua abordagem de modelagem está incorreta e você precise de uma abordagem diferente, talvez seus dados tenham problemas.

Por que você remove variáveis ​​se elas possuem corr> .3 está além de mim. Talvez essas coisas realmente estejam relacionadas e ambas sejam importantes para a variável dependente. Você pode lidar com isso com um índice ou uma função que representa a contribuição conjunta de variáveis ​​correlacionadas. Parece que você está jogando cegamente informações com base em critérios estatísticos arbitrários. Por que não usar corr> .31 ou .33?

John
fonte