Treinamento, teste, validação de um problema de análise de sobrevivência

14

Estive navegando em vários tópicos aqui, mas não acho que minha pergunta exata seja respondida.

Eu tenho um conjunto de dados de ~ 50.000 alunos e seu tempo para desistir. Vou realizar uma regressão proporcional a riscos com um grande número de covariáveis ​​em potencial. Também farei regressão logística na evasão / permanência. O principal objetivo será a previsão de novas coortes de estudantes, mas não temos motivos para acreditar que elas variarão muito em relação à coorte do ano passado.

Normalmente, eu não tenho esse luxo de dados e faço o ajuste do modelo com algum tipo de penalização, mas desta vez pensei em dividir os conjuntos de dados de treinamento e teste e depois fazer a seleção de variáveis ​​no conjunto de treinamento; depois, usando o conjunto de dados de teste para estimar parâmetros e capacidade preditiva.

Essa é uma boa estratégia? Se não, o que é melhor?

Citações bem-vindas, mas não necessárias.

Peter Flom - Restabelece Monica
fonte

Respostas:

8

n>20,000

Frank Harrell
fonte
Obrigado. Você recomendaria 80-20? 90-10? Algo mais? Alguma referência sobre isso?
Peter Flom - Restabelece Monica
2
Não acompanhei a literatura sobre a configuração ideal de divisão. Mas alguns princípios gerais se aplicam. Para a amostra de validação, você precisan
3

Eu mesmo estive olhando este artigo para a tarefa semelhante de validar cruzadamente a previsão de sobrevivência. Os bons trechos começam no Capítulo 2.

Cam.Davidson.Pilon
fonte
Isso parece comparar 5 vezes ao modelo de estimativa baseada em CV (e conclui que 5 vezes é melhor). Mas eu estava mais interessado em dividir os dados em duas partes e usar uma para validar a outra.
Peter Flom - Restabelece Monica
1
A conclusão que descobri disso e por que me senti atraído por este artigo foi como lidar com a censura nas previsões de sobrevivência, ou seja, qual função de perda usar (apesar de reler sua pergunta, você pode não ter censura).
precisa saber é o seguinte
Eu tenho censura e a dissertação é interessante, mas não acho que seja uma resposta para minha pergunta.
Peter Flom - Restabelece Monica
1

Desde então, encontrei este artigo que não apenas responde à minha pergunta, mas fornece um método para descobrir a divisão ideal para conjuntos de dados específicos. Descobri isso graças ao uso do termo "configuração ideal por divisão" da @FrankHarrell, que eu pesquisei no Google.

Peter Flom - Restabelece Monica
fonte
2
Peter, acho que esse papel usou uma regra de pontuação inadequada. Resultados diferentes podem ser obtidos ao usar regras de pontuação adequadas. Além disso, o artigo não abordou a "volatilidade" da análise. Com pequenos tamanhos totais de amostra considerados, a repetição do processo usando uma divisão aleatória diferente resultará em modelos muito diferentes e em uma precisão muito diferente quando comparada à primeira divisão. Vejo que é muito indesejável.
Frank Harrell
@FrankHarrell: Entendo seu ponto de vista e é realmente um ponto muito bom. O que você recomenda fazer então? Realize as corridas de trem / teste de Monte Carlo e, a cada corrida, dobra o CV em kx (ou com o bootstrap)? Mas isso contaminaria todo o conjunto de dados ... Não vejo melhor solução do que encontrar uma maneira apropriada de dividir o conjunto de dados em conjuntos de treinamento e teste (quais seriam os critérios?). Não estou confortável em usar todos os conjunto de dados para treinar e validar (usando CV ou inicialização) os modelos (a partir dos quais um (ou vários) será usado para prever valores de saída desconhecidos com base em alguns dados de entrada).
Jspcgandre
Eu mencionei que no post você colocou em outra página de tópico.
31713 Frank #