Regressão logística e amostragem stepwise

13

Estou ajustando uma regressão logística passo a passo em um conjunto de dados no SPSS. No procedimento, estou ajustando meu modelo a um subconjunto aleatório que é de aprox. 60% da amostra total, ou seja, cerca de 330 casos.

O que eu acho interessante é que, toda vez que faço uma nova amostragem dos meus dados, estou recebendo variáveis ​​diferentes entrando e saindo no modelo final. Alguns preditores estão sempre presentes no modelo final, mas outros aparecem e saem dependendo da amostra.

Minha pergunta é essa. Qual a melhor forma de lidar com isto? Eu esperava ver a convergência de variáveis ​​preditoras, mas esse não é o caso. Alguns modelos fazem muito mais sentido intuitivo do ponto de vista operacional (e seria mais fácil de explicar aos tomadores de decisão), enquanto outros ajustam os dados um pouco melhor.

Em suma, como as variáveis ​​estão sendo trocadas, como você recomendaria lidar com a minha situação?

Muito obrigado antecipadamente.

Btibert3
fonte

Respostas:

16

Se você for usar um procedimento passo a passo, não faça uma nova amostra. Crie uma subamostra aleatória de uma vez por todas. Faça sua análise. Valide os resultados com os dados retidos. É provável que a maioria das variáveis ​​"significativas" acabe não sendo significativa.

( Edit 12/2015: Você pode realmente ir além de uma abordagem tão simples, reamostrando, repetindo o procedimento passo a passo e re-validando: isso o levará a uma forma de validação cruzada. Mas, nesse caso, métodos mais sofisticados de variável seleção, como regressão de cordilheira, laço e rede elástica provavelmente são preferíveis à regressão gradual).

CpFt

(Presumo que você já tenha realizado a análise e a exploração para identificar reexpressões apropriadas das variáveis ​​independentes, que tenha identificado interações prováveis ​​e que tenha estabelecido que realmente existe uma relação aproximadamente linear entre o logit da variável dependente e os regressores. Se não, faça este trabalho preliminar essencial e só então retorne à regressão passo a passo.)

Seja cauteloso ao seguir conselhos genéricos, como acabei de dar, a propósito :-). Sua abordagem deve depender do objetivo da análise (previsão? Extrapolação? Entendimento científico? Tomada de decisão)? Assim como a natureza dos dados, o número de variáveis ​​etc.

whuber
fonte
2
+1 por destacar a importância da interpretação do modelo. Não adicionarei nada sobre a abordagem desinformada de ML (ou métodos de conjunto) com esquemas de validação cruzada mais complexos, porque sinto que você já disse o que realmente importa aqui: (1) a seleção de recursos por reamostragem é dificilmente interpretável isoladamente (ou seja, comparando um resultado após o outro) e (2) tudo depende se estamos buscando um modelo preditivo ou explicativo.
dec
Obrigado pela sua compreensão. Fiz uma pré-triagem para restringir meu espaço de pesquisa e simplesmente quero encontrar o melhor modelo de previsão com o menor número de variáveis. Estou apenas jogando 7 preditores no modelo, o que, como eu o entendo, deve estar bem. Entendo a ideia de ficar com uma amostra, mas, por outro lado, meu modelo era fundamentalmente diferente e mostra que os resultados são inteiramente dependentes da amostra, o que me fez pausar.
Btibert3
@ Btibert3 Certo: quando os resultados variam entre subconjuntos aleatórios dos seus dados, você pode tomar isso como evidência de que as variáveis ​​independentes não são preditores fortes ou consistentes da variável independente.
whuber
12

Uma pergunta importante é "por que você quer um modelo com o menor número possível de variáveis?". Se você deseja ter o menor número possível de variáveis ​​para minimizar o custo da coleta de dados para o uso operacional do seu modelo, as respostas dadas por whuber e mbq são um excelente começo.

Se o desempenho preditivo é o que é realmente importante, provavelmente é melhor você não fazer nenhuma seleção de recurso e usar a regressão logística regularizada (cf regressão cume). De fato, se o desempenho preditivo era de primordial importância, eu usaria a regressão logística regularizada em saco como uma espécie de estratégia "cinta-e-cinta" para evitar o excesso de ajuste de um pequeno conjunto de dados. Millar, em seu livro sobre seleção de subconjuntos em regressão, fornece praticamente esse conselho no apêndice, e eu achei que ele era um excelente conselho para problemas com muitos recursos e poucas observações.

Se a compreensão dos dados é importante, não há necessidade de o modelo usado para entender os dados ser o mesmo usado para fazer previsões. Nesse caso, eu reamostraria os dados várias vezes e examinaria os padrões das variáveis ​​selecionadas nas amostras para descobrir quais variáveis ​​eram informativas (como sugere o mbq, se a seleção de recursos for instável, uma única amostra não fornecerá a imagem completa), mas eu ainda usaria o conjunto de modelos de regressão logística regularizada em saco para previsões.

Dikran Marsupial
fonte
1
+1 para o ponteiro para regressão logística regularizada. Não está claro como alguém poderia "formalmente olhar para padrões" quando reamostrar os "dados várias vezes". Isso soa muito como espionagem de dados e, portanto, parece provável que leve à frustração e erro.
whuber
5
A seleção de recursos quando a seleção é instável sempre será uma receita para frustração e erro. O uso de apenas uma amostra reduz a frustração, mas aumenta a probabilidade de erro, pois o incentiva a fazer inferências sobre os recursos relevantes para o problema com base no que funciona melhor na amostra específica que você olha - que é uma forma de apropriado. A nova amostragem fornece uma idéia da incerteza na seleção de recursos - que geralmente é igualmente importante. Nesse caso, não devemos tirar conclusões fortes sobre os recursos relevantes, pois não há dados suficientes.
Dikran Marsupial
Bom ponto; Eu odeio quando as pessoas só contam com média de reamostragem, é um desperdício.
10

Em geral, existem dois problemas na seleção de recursos:

  • mínimo ideal , onde você procura o menor conjunto de variáveis ​​que fornece o menor erro
  • tudo relevante , onde você procura todas as variáveis ​​relevantes em um problema

A convergência da seleção de preditores está em um domínio de todo o problema relevante, o que é extremamente difícil e, portanto, requer ferramentas muito mais poderosas do que a regressão logística, cálculos pesados ​​e um tratamento muito cuidadoso.

Mas parece que você está solucionando o primeiro problema, portanto não se preocupe. Geralmente, posso responder em segundo lugar ao whuber's, mas não concordo com a afirmação de que você deve abandonar a reamostragem - aqui não será um método para estabilizar a seleção de recursos, mas, no entanto, será uma simulação para estimar o desempenho de uma seleção de recursos acoplados + treinamento , fornecerá uma visão da confiança em sua precisão.


fonte
+1 Preocupo-me que muitas reamostragens sejam apenas confusas e enganosas. A reamostragem de maneira controlada, através da validação cruzada ou de uma amostra de espera para verificação, obviamente não é problemática.
whuber
6

Você pode dar uma olhada no artigo Stability Selection, de Meinshausen e Buhlmann, no JR Statist. Soc B (2010) 72 Parte 4, e a discussão posterior. Eles consideram o que acontece quando você divide repetidamente seu conjunto de pontos de dados aleatoriamente em duas metades e procura recursos em cada metade. Ao assumir que o que você vê na metade é independente do que você vê na outra metade correspondente, você pode provar limites no número esperado de variáveis ​​falsamente selecionadas.

Mcdowella
fonte
2

Não use passo a passo! Veja meu artigo

Peter Flom - Restabelece Monica
fonte