Suponha que temos covariáveis x 1 , … , x n e uma variável binária de resultado y . Algumas dessas covariáveis são categóricas com vários níveis. Outros são contínuos. Como você escolheria o "melhor" modelo? Em outras palavras, como você escolhe quais covariáveis incluir no modelo?
Você modelaria com cada uma das covariáveis individualmente usando regressão logística simples e escolheria aquelas com uma associação significativa?
logistic
regression-strategies
Thomas
fonte
fonte
Respostas:
Provavelmente isso não é uma coisa boa a se fazer. Analisar todas as covariáveis individuais primeiro e depois construir um modelo com aquelas significativas é logicamente equivalente a um procedimento de pesquisa automática. Embora essa abordagem seja intuitiva, as inferências feitas com esse procedimento não são válidas (por exemplo, os valores p verdadeiros são diferentes dos relatados pelo software). O problema é ampliado quanto maior o tamanho do conjunto inicial de covariáveis. Se você fizer isso de qualquer maneira (e, infelizmente, muitas pessoas fazem), não poderá levar a sério o modelo resultante. Em vez disso, você deve executar um estudo inteiramente novo, reunindo uma amostra independente e ajustando o modelo anterior, para testá-lo. No entanto, isso requer muitos recursos e, além disso, como o processo é defeituoso e o modelo anterior provavelmente é ruim,desperdiçar muitos recursos.
Uma maneira melhor é avaliar modelos de interesse substantivo para você. Em seguida, use um critério de informação que penalize a flexibilidade do modelo (como a AIC) para julgar entre esses modelos. Para regressão logística, o AIC é:
onde é o número de covariáveis incluídas nesse modelo. Você deseja o modelo com o menor valor para a AIC, todas as coisas sendo iguais. No entanto, nem sempre é tão simples; tenha cuidado quando vários modelos tiverem valores semelhantes para a AIC, mesmo que um seja menor.k
Incluo aqui a fórmula completa da AIC, porque diferentes softwares produzem informações diferentes. Pode ser necessário calculá-lo apenas com a probabilidade, ou você pode obter a AIC final ou qualquer outra coisa.
fonte
Existem muitas maneiras de escolher quais variáveis vão em um modelo de regressão, algumas decentes, outras ruins e outras terríveis. Pode-se simplesmente procurar as publicações da Sander Greenland, muitas das quais dizem respeito à seleção de variáveis.
De um modo geral, porém, tenho algumas "regras" comuns:
fonte
Como você escolheria o "melhor" modelo?
Não há informações suficientes fornecidas para responder a essa pergunta; se você quiser obter efeitos causais em y, precisará implementar regressões que reflitam o que se sabe sobre a confusão. Se você deseja fazer previsões, a AIC seria uma abordagem razoável.
Essas abordagens não são as mesmas; o contexto determinará qual das (muitas) maneiras de escolher variáveis será mais / menos apropriada.
fonte