Estive navegando em vários tópicos aqui, mas não acho que minha pergunta exata seja respondida.
Eu tenho um conjunto de dados de ~ 50.000 alunos e seu tempo para desistir. Vou realizar uma regressão proporcional a riscos com um grande número de covariáveis em potencial. Também farei regressão logística na evasão / permanência. O principal objetivo será a previsão de novas coortes de estudantes, mas não temos motivos para acreditar que elas variarão muito em relação à coorte do ano passado.
Normalmente, eu não tenho esse luxo de dados e faço o ajuste do modelo com algum tipo de penalização, mas desta vez pensei em dividir os conjuntos de dados de treinamento e teste e depois fazer a seleção de variáveis no conjunto de treinamento; depois, usando o conjunto de dados de teste para estimar parâmetros e capacidade preditiva.
Essa é uma boa estratégia? Se não, o que é melhor?
Citações bem-vindas, mas não necessárias.
fonte
Eu mesmo estive olhando este artigo para a tarefa semelhante de validar cruzadamente a previsão de sobrevivência. Os bons trechos começam no Capítulo 2.
fonte
Desde então, encontrei este artigo que não apenas responde à minha pergunta, mas fornece um método para descobrir a divisão ideal para conjuntos de dados específicos. Descobri isso graças ao uso do termo "configuração ideal por divisão" da @FrankHarrell, que eu pesquisei no Google.
fonte