Eu tenho uma pergunta sobre seleção de modelos e desempenho de modelos em regressão logística. Eu tenho três modelos que são baseados em três hipóteses diferentes. Os dois primeiros modelos (vamos chamá-los de zex) têm apenas uma variável explicativa em cada modelo, e o terceiro (vamos chamá-lo de w) é mais complicado. Estou usando o AIC para seleção de variáveis para o modelo w e depois o AIC para comparar qual dos três modelos que melhor explica a variável dependente. Descobri que o modelo w tem o AIC mais baixo e agora quero fazer algumas estatísticas de desempenho nesse modelo para ter uma idéia do poder preditivo do modelo. Como tudo o que sei é que esse modelo é melhor que os outros dois, mas não o quão bom é.
Desde que eu usei todos os dados para aprender o modelo (para poder comparar os três modelos), como devo proceder com o desempenho do modelo? Pelo que reuni, não posso apenas fazer uma validação cruzada k-fold no modelo final que obtive da seleção de modelos usando o AIC, mas preciso começar do início com todas as variáveis explicativas incluídas, isso está correto? Eu acho que é o modelo final que escolhi com a AIC e quero saber o desempenho da mesma, mas percebo que treinei todos os dados para que o modelo seja tendencioso. Portanto, se eu começar do começo com todas as variáveis explicativas em todas as dobras, receberei modelos finais diferentes para algumas dobras, posso escolher o modelo da dobra que deu o melhor poder preditivo e aplicá-lo ao conjunto completo de dados para comparar AIC com os outros dois modelos (zex)? Ou como isso funciona?
A segunda parte da minha pergunta é uma pergunta básica sobre excesso de parametrização. Eu tenho 156 pontos de dados, 52 é 1 o resto é 0. Eu tenho 14 variáveis explicativas para escolher para o modelo w, percebo que não posso incluir tudo devido à parametrização excessiva; li que você deve usar apenas 10% do grupo da variável dependente com menos observações, o que só seria 5 para mim. Estou tentando responder a uma pergunta em ecologia, está certo selecionar as variáveis iniciais que, na minha opinião, explicam melhor o dependente simplesmente baseado em ecologia? Ou como escolho as variáveis explicativas iniciais? Não parece certo excluir completamente algumas variáveis.
Então, eu realmente tenho três perguntas:
- Seria bom testar o desempenho em um modelo treinado no conjunto de dados completo com validação cruzada?
- Caso contrário, como escolho o modelo final ao fazer a validação cruzada?
- Como escolho as variáveis iniciais para que eu queira parametrizar demais?
Desculpe por minhas perguntas confusas e minha ignorância. Sei que perguntas semelhantes foram feitas, mas ainda me sinto um pouco confusas. Aprecie quaisquer pensamentos e sugestões.
Para responder "Poderia ser bom testar o desempenho em um modelo treinado no conjunto de dados completo com validação cruzada?" NÃO, acho que não tem problema. Você deve ajustar todos os três modelos ao mesmo subconjunto do seu conjunto de dados. Em seguida, faça a validação cruzada para ver qual é o melhor.
fonte
Eu acho que não. Talvez um método melhor seja avaliar cada um dos três modelos usando a validação cruzada repetida. Como você escolheu seus recursos com base no conhecimento prévio, não precisa se preocupar com a seleção de recursos. Este método permite avaliar o desempenho do modelo.
Depois de avaliar o desempenho do seu modelo usando a validação cruzada repetida, você poderá treinar o modelo final usando todos os dados disponíveis.
Se eu entendi corretamente: Como sugerido por um colaborador acima, você pode adicionar seus recursos com base em conhecimentos anteriores da área ou precisa executar a seleção de recursos na validação cruzada para evitar ajustes excessivos. Esse mesmo procedimento de seleção de recurso seria aplicado a todos os dados ao treinar o modelo final. Você não pode usar este modelo para relatar o desempenho generalizado do modelo, isso deve vir da estimativa de validação cruzada.
fonte