Eu tenho alguns modelos preditivos cujo desempenho eu gostaria de testar novamente (ou seja, levar meu conjunto de dados, "rebobinar" para um ponto anterior no tempo e ver como o modelo teria um desempenho prospectivo).
O problema é que alguns dos meus modelos foram criados através de um processo interativo. Por exemplo, seguindo o conselho das Estratégias de modelagem de regressão de Frank Harrell , em um modelo eu usei splines cúbicos restritos para lidar com possíveis associações não lineares entre recursos e a resposta. Aloquei os graus de liberdade de cada spline com base em uma combinação de conhecimento de domínio e medidas univariadas de força de associação. Mas os graus de liberdade que eu quero permitir ao meu modelo obviamente dependem do tamanho do conjunto de dados, que varia drasticamente no teste posterior. Se não desejar escolher graus de liberdade separadamente para cada vez que o modelo for testado novamente, quais são minhas outras opções?
Por outro exemplo, atualmente estou trabalhando na detecção de outlier através da descoberta de pontos com alta alavancagem. Se eu estivesse feliz em fazer isso manualmente, simplesmente analisaria cada ponto de dados de alta alavancagem, verificaria se os dados estavam limpos e os filtraria ou os limparia manualmente. Mas isso depende de um monte de conhecimento de domínio, então não sei como automatizar o processo.
Eu gostaria de receber conselhos e soluções (a) para o problema geral de automatizar partes interativas do processo de construção de modelos ou (b) conselhos específicos para esses dois casos. Obrigado!
fonte
Em vez de tentar descobrir como automatizar seus esforços de ajuste manual de modelo, eu contornaria esse problema todos juntos, analisando alunos com variações mais baixas que exigem muito menos ajuste, mesmo que isso acarrete algum viés maior no modelo. Você deseja ter confiança nos resultados do backtest, que se resumem em baixa variação de amostragem em suas previsões, e a introdução de algum processo de ajuste automatizado em cima de um aluno que já possui a variação de amostragem está trabalhando contra esse objetivo. Pode parecer que a cauda está abanando o cachorro aqui, mas qualquer coisa que exija muito ajuste cuidadoso (manual ou automatizado) não é um ótimo candidato para um IMO de ambiente de teste verdadeiramente honesto.
fonte