Quando uso modelos de regressão, sinto desconfiança por não adotar uma premissa de associação linear; em vez disso, gosto de explorar a forma funcional das relações entre variáveis dependentes e explicativas usando regressão de suavização não paramétrica (por exemplo , modelos aditivos generalizados , lowess / lowess , smoothers de linhas de corrida etc.) antes de estimar um modelo paramétrico usando, como apropriado, regressão não linear de mínimos quadrados estimar parâmetros para funções sugeridas pelo modelo não paramétrico.
Qual é uma boa maneira de pensar sobre a execução da validação cruzada na fase de regressão de suavização não paramétrica de tal abordagem? Gostaria de saber se posso encontrar uma situação em que, na amostra A aleatória de holdout, um relacionamento aproximado por uma função de dobradiça linear "pau quebrado" possa ser evidente, enquanto a amostra B de holdout sugere um relacionamento que seria melhor aproximado por uma função de dobradiça de limiar parabólico.
Alguém poderia adotar uma abordagem não exaustiva para conter uma parte dos dados selecionada aleatoriamente, executar a regressão não paramétrica, interpretar formas funcionais plausíveis para o resultado e repetir esse número de vezes (gerenciável por humanos) e formas funcionais plausíveis mentalmente ?
Ou alguém adotaria uma abordagem exaustiva (por exemplo, LOOCV) e usaria algum algoritmo para 'suavizar todos os suaves' e usaria o mais suave dos suaves para informar formas funcionais plausíveis? (Embora, pensando bem, acho pouco provável que o LOOCV resulte em relacionamentos funcionais muito diferentes, pois é improvável que uma forma funcional em uma amostra grande o suficiente seja alterada por um único ponto de dados.)
Minhas aplicações normalmente envolvem números gerenciáveis por humanos de variáveis preditivas (um punhado a algumas dezenas, digamos), mas o tamanho da minha amostra varia de algumas centenas a algumas centenas de milhares. Meu objetivo é produzir um modelo intuitivamente comunicado e facilmente traduzido que possa ser usado para fazer previsões por pessoas com conjuntos de dados diferentes dos meus e que não incluam as variáveis de resultado.
Referências em respostas muito bem-vindas.
Respostas:
Parece-me que há duas confusões na sua pergunta:
Primeiro, a regressão linear (mínimos quadrados) não requer uma relação linear nas variáveis independentes , mas nos parâmetros .
Assim, pode ser estimado por mínimos quadrados comuns ( é uma função linear dos parâmetros , , ), enquanto não pode ( não é linear no parâmetro ). yabcy=a+b⋅x+b2⋅zyby=a+b⋅xe−x+c⋅z1+x2 y a b c y=a+b⋅x+b2⋅z y b
Segundo, como você determina um modelo funcional "correto" de uma maneira mais suave, ou seja, como você vai da etapa 1 à etapa 2?
Até onde eu sei, não há como inferir "quais funções dos regressores usar" a partir de técnicas de suavização, como splines, redes neurais, etc. parece muito robusto para mim e parece que não é necessário suavizar isso, apenas gráficos de dispersão.
Se seu objetivo final é um modelo de regressão linear e seu problema é que você não sabe exatamente qual forma funcional dos regressores deve ser usada, seria melhor ajustar diretamente um modelo de regressão linear regularizado (como o LASSO ) com um expansão ampla de base dos regressores originais (como polinômios dos regressores, exponenciais, logs, ...). O procedimento de regularização deve então eliminar os regressores desnecessários, deixando-o com um modelo paramétrico (espero que bom). E você pode usar a validação cruzada para determinar o parâmetro de penalização ideal (que determina os graus reais de liberdade do modelo).
Você sempre pode usar regressões não paramétricas como referência para erro de generalização, como uma maneira de verificar se seu modelo linear regularizado prediz dados externos da mesma forma que uma suavização não paramétrica.
fonte