Seleção de modelo: Regressão logística

13

Suponha que temos covariáveis e uma variável binária de resultado . Algumas dessas covariáveis são categóricas com vários níveis. Outros são contínuos. Como você escolheria o "melhor" modelo? Em outras palavras, como você escolhe quais covariáveis incluir no modelo? $n$ $x_1, \dots, x_n$ $y$

Você modelaria com cada uma das covariáveis individualmente usando regressão logística simples e escolheria aquelas com uma associação significativa? $y$

logistic regression-strategies Thomas
fonte

1

Além da minha resposta abaixo (ou outras, se surgirem), a seguir há uma boa discussão sobre a seleção de modelos (embora não focada na regressão logística per se) stats.stackexchange.com/questions/18214/…

gung - Reinstate Monica

2

Vou citar @jthetzel de um comentário recente neste site: "Uma boa pergunta, mas que a maioria aqui estudou em cursos universitários semestrais, e alguns passaram carreiras estudando". É como sentar com uma pessoa e dizer: "Você pode me ensinar suaíli esta tarde?" Não que Gung não faça bons comentários em sua resposta. É apenas um vasto território.

Rolando2

2

Este é também um tópico que, embora para uma pergunta muito específica, contenha alguns conselhos de minha parte: stats.stackexchange.com/questions/17068/… Também darei meus pensamentos abaixo.

Fomite 19/11/11

Ok, então eu acho que vou usar apenas AIC como critério. O modelo completo tem o AIC mais baixo. Além disso, os AICs são bem diferentes um do outro.

Thomas

10

Provavelmente isso não é uma coisa boa a se fazer. Analisar todas as covariáveis individuais primeiro e depois construir um modelo com aquelas significativas é logicamente equivalente a um procedimento de pesquisa automática. Embora essa abordagem seja intuitiva, as inferências feitas com esse procedimento não são válidas (por exemplo, os valores p verdadeiros são diferentes dos relatados pelo software). O problema é ampliado quanto maior o tamanho do conjunto inicial de covariáveis. Se você fizer isso de qualquer maneira (e, infelizmente, muitas pessoas fazem), não poderá levar a sério o modelo resultante. Em vez disso, você deve executar um estudo inteiramente novo, reunindo uma amostra independente e ajustando o modelo anterior, para testá-lo. No entanto, isso requer muitos recursos e, além disso, como o processo é defeituoso e o modelo anterior provavelmente é ruim,desperdiçar muitos recursos.

Uma maneira melhor é avaliar modelos de interesse substantivo para você. Em seguida, use um critério de informação que penalize a flexibilidade do modelo (como a AIC) para julgar entre esses modelos. Para regressão logística, o AIC é:

A I C = - 2 \times \ln (likelihood) + 2 k

$AIC = -2\times\ln(\text{likelihood}) + 2k$

onde é o número de covariáveis incluídas nesse modelo. Você deseja o modelo com o menor valor para a AIC, todas as coisas sendo iguais. No entanto, nem sempre é tão simples; tenha cuidado quando vários modelos tiverem valores semelhantes para a AIC, mesmo que um seja menor. $k$

Incluo aqui a fórmula completa da AIC, porque diferentes softwares produzem informações diferentes. Pode ser necessário calculá-lo apenas com a probabilidade, ou você pode obter a AIC final ou qualquer outra coisa.

Repor a Monica
fonte

6

Gosto da AIC, mas cuidado com o fato de que a computação da AIC em mais de 2 modelos pré-especificados resulta em um problema de multiplicidade.

precisa

1

@FrankHarrell nice tip!

gung - Restabelece Monica

9

Existem muitas maneiras de escolher quais variáveis vão em um modelo de regressão, algumas decentes, outras ruins e outras terríveis. Pode-se simplesmente procurar as publicações da Sander Greenland, muitas das quais dizem respeito à seleção de variáveis.

De um modo geral, porém, tenho algumas "regras" comuns:

Algoritmos automatizados, como aqueles que vêm em pacotes de software, provavelmente são uma má idéia.
O uso de técnicas de diagnóstico de modelo, como sugere Gung, é um bom meio de avaliar suas opções de seleção de variáveis.
Você também deve usar uma combinação de experiência no assunto, pesquisadores de literatura, gráficos acíclicos direcionados etc. para informar suas opções de seleção de variáveis.

Fomite
fonte

3

Bem, especialmente os pontos 1 e 3. As técnicas de diagnóstico do modelo podem resultar em falha na preservação do erro do tipo I.

precisa

3

Bem, coloque @Epigrad. Eu acrescentaria um ponto. Os algoritmos automatizados tornam-se muito atraentes quando o seu problema se torna grande. Eles podem ser a única maneira viável de fazer a seleção de modelos em alguns casos. As pessoas estão agora analisando enormes conjuntos de dados com milhares de variáveis em potencial e milhões de observações. Como está a experiência do assunto na intuição 1000-dimensional? E o que você encontrará é que, mesmo que você faça isso manualmente (ou seja, com um analista), eles provavelmente acabarão criando algumas regras de atalho para a escolha de variáveis. A parte difícil é realmente codificar essas opções.

probabilityislogic

1

@probabilityislogic Eu concordo com isso. Honestamente, acho que as técnicas tradicionais são pouco adequadas para conjuntos de dados muito grandes, mas a tendência a recorrer a técnicas mais acessíveis me assusta. Se um algoritmo automatizado pode influenciar um conjunto de dados com 10 variáveis, não há razão para não influenciar um com 10.000. A ênfase atual na aquisição de big data sobre sua análise em algumas partes me deixa um pouco nervosa.

fomite

2

@probabilityislogic Em uma reviravolta profundamente irônica, agora me pego trabalhando com um conjunto de dados com mais de 10s de 1000s de variáveis potenciais>. <

Fomite

2

Como você escolheria o "melhor" modelo?

Não há informações suficientes fornecidas para responder a essa pergunta; se você quiser obter efeitos causais em y, precisará implementar regressões que reflitam o que se sabe sobre a confusão. Se você deseja fazer previsões, a AIC seria uma abordagem razoável.

Essas abordagens não são as mesmas; o contexto determinará qual das (muitas) maneiras de escolher variáveis será mais / menos apropriada.

hóspede
fonte

Seleção de modelo: Regressão logística

Respostas: