Tenho dados de pesquisas grandes, uma variável de resultado binário e muitas variáveis explicativas, incluindo binárias e contínuas. Estou construindo conjuntos de modelos (experimentando com GLM e GLM misto) e usando abordagens teóricas da informação para selecionar o modelo superior. Examinei cuidadosamente as explicações (contínuas e categóricas) para correlações e só estou usando aquelas no mesmo modelo que possuem um coeficiente de Pearson ou Phicorr menor que 0,3. Eu gostaria de dar a todas as minhas variáveis contínuas uma chance justa de competir pelo modelo principal. Na minha experiência, transformar aqueles que precisam dele com base na inclinação aprimora o modelo em que eles participam (AIC inferior).
Minha primeira pergunta é: essa melhoria é porque a transformação melhora a linearidade com o logit? Ou a correção da inclinação melhora o equilíbrio das variáveis explicativas de alguma forma, tornando os dados mais simétricos? Eu gostaria de entender as razões matemáticas por trás disso, mas por enquanto, se alguém pudesse explicar isso em termos fáceis, isso seria ótimo. Se você tiver alguma referência que eu possa usar, eu realmente aprecio isso.
Muitos sites dizem que, como a normalidade não é uma suposição na regressão logística binária, não transforme as variáveis. Mas sinto que, ao não transformar minhas variáveis, deixo algumas em desvantagem em comparação com outras, e isso pode afetar o modelo principal e alterar a inferência (bem, normalmente não, mas em alguns conjuntos de dados). Algumas de minhas variáveis têm melhor desempenho quando transformadas em log, outras quando ao quadrado (direção diferente da inclinação) e outras não transformadas.
Alguém poderia me dar uma orientação sobre o que ter cuidado ao transformar variáveis explicativas para regressão logística e, se não o fizer, por que não?
Respostas:
Como você diz que possui "dados grandes", pode procurar splines, para permitir que os dados falem sobre transformações ... por exemplo, empacote mgcv em R. Mas, mesmo usando essa tecnologia (ou outros métodos para procurar transformações automaticamente), o O teste final é perguntar-se o que faz sentido cientificamente . ¿O que outras pessoas em seu campo fazem com dados semelhantes?
fonte
A questão crítica é quais são os números que devem representar no mundo real e qual é a hipótese da relação entre essas variáveis e a variável dependente. Você pode melhorar seu modelo 'limpando' seus dados, mas se isso não refletir melhor o mundo real, você não terá êxito. Talvez as distribuições de seus dados signifiquem que sua abordagem de modelagem está incorreta e você precise de uma abordagem diferente, talvez seus dados tenham problemas.
Por que você remove variáveis se elas possuem corr> .3 está além de mim. Talvez essas coisas realmente estejam relacionadas e ambas sejam importantes para a variável dependente. Você pode lidar com isso com um índice ou uma função que representa a contribuição conjunta de variáveis correlacionadas. Parece que você está jogando cegamente informações com base em critérios estatísticos arbitrários. Por que não usar corr> .31 ou .33?
fonte