Estou ajustando uma regressão logística passo a passo em um conjunto de dados no SPSS. No procedimento, estou ajustando meu modelo a um subconjunto aleatório que é de aprox. 60% da amostra total, ou seja, cerca de 330 casos.
O que eu acho interessante é que, toda vez que faço uma nova amostragem dos meus dados, estou recebendo variáveis diferentes entrando e saindo no modelo final. Alguns preditores estão sempre presentes no modelo final, mas outros aparecem e saem dependendo da amostra.
Minha pergunta é essa. Qual a melhor forma de lidar com isto? Eu esperava ver a convergência de variáveis preditoras, mas esse não é o caso. Alguns modelos fazem muito mais sentido intuitivo do ponto de vista operacional (e seria mais fácil de explicar aos tomadores de decisão), enquanto outros ajustam os dados um pouco melhor.
Em suma, como as variáveis estão sendo trocadas, como você recomendaria lidar com a minha situação?
Muito obrigado antecipadamente.
fonte
Uma pergunta importante é "por que você quer um modelo com o menor número possível de variáveis?". Se você deseja ter o menor número possível de variáveis para minimizar o custo da coleta de dados para o uso operacional do seu modelo, as respostas dadas por whuber e mbq são um excelente começo.
Se o desempenho preditivo é o que é realmente importante, provavelmente é melhor você não fazer nenhuma seleção de recurso e usar a regressão logística regularizada (cf regressão cume). De fato, se o desempenho preditivo era de primordial importância, eu usaria a regressão logística regularizada em saco como uma espécie de estratégia "cinta-e-cinta" para evitar o excesso de ajuste de um pequeno conjunto de dados. Millar, em seu livro sobre seleção de subconjuntos em regressão, fornece praticamente esse conselho no apêndice, e eu achei que ele era um excelente conselho para problemas com muitos recursos e poucas observações.
Se a compreensão dos dados é importante, não há necessidade de o modelo usado para entender os dados ser o mesmo usado para fazer previsões. Nesse caso, eu reamostraria os dados várias vezes e examinaria os padrões das variáveis selecionadas nas amostras para descobrir quais variáveis eram informativas (como sugere o mbq, se a seleção de recursos for instável, uma única amostra não fornecerá a imagem completa), mas eu ainda usaria o conjunto de modelos de regressão logística regularizada em saco para previsões.
fonte
Em geral, existem dois problemas na seleção de recursos:
A convergência da seleção de preditores está em um domínio de todo o problema relevante, o que é extremamente difícil e, portanto, requer ferramentas muito mais poderosas do que a regressão logística, cálculos pesados e um tratamento muito cuidadoso.
Mas parece que você está solucionando o primeiro problema, portanto não se preocupe. Geralmente, posso responder em segundo lugar ao whuber's, mas não concordo com a afirmação de que você deve abandonar a reamostragem - aqui não será um método para estabilizar a seleção de recursos, mas, no entanto, será uma simulação para estimar o desempenho de uma seleção de recursos acoplados + treinamento , fornecerá uma visão da confiança em sua precisão.
fonte
Você pode dar uma olhada no artigo Stability Selection, de Meinshausen e Buhlmann, no JR Statist. Soc B (2010) 72 Parte 4, e a discussão posterior. Eles consideram o que acontece quando você divide repetidamente seu conjunto de pontos de dados aleatoriamente em duas metades e procura recursos em cada metade. Ao assumir que o que você vê na metade é independente do que você vê na outra metade correspondente, você pode provar limites no número esperado de variáveis falsamente selecionadas.
fonte
Não use passo a passo! Veja meu artigo
fonte