Não tenho um exemplo ou tarefa específica em mente. Eu sou apenas novo no uso de splines-b e queria entender melhor essa função no contexto de regressão.
Vamos supor que queremos avaliar a relação entre a variável resposta e alguns preditores x 1 , x 2 , . . . , x p . Os preditores incluem algumas variáveis numéricas e outras categóricas.
Digamos que, depois de ajustar um modelo de regressão, uma das variáveis numéricas, por exemplo, seja significativa. Um passo lógico depois é avaliar se os polinômios de ordem superior, por exemplo: x 2 1 e x 3 1, são necessários para explicar adequadamente o relacionamento sem superajustar.
Minhas perguntas são:
Em que momento você escolheu entre splines-b ou polinômio simples de ordem superior. por exemplo, em R:
y ~ poly(x1,3) + x2 + x3
vs
y ~ bs(x1,3) + x2 + x3
Como você pode usar gráficos para informar sua escolha entre esses dois e o que acontece se não estiver muito claro a partir dos gráficos (por exemplo: devido à grande quantidade de pontos de dados)
Como você avalia os termos de interação bidirecional entre e, digamos, x 3
Como as alterações acima são alteradas para diferentes tipos de modelos
Você consideraria nunca usar polinômios de alta ordem e sempre ajustar b-splines e penalizar a alta flexibilidade?
fonte
mgcv
é, por que não usar modelos aditivos (generalizados). A seleção da suavidade é automática e os métodos inferenciais são bem desenvolvidos.Respostas:
Normalmente, eu consideraria apenas splines em vez de polinômios. Os polinômios não podem modelar limiares e geralmente são indesejáveis globais, ou seja, as observações em um intervalo do preditor influenciam fortemente o que o modelo faz em um intervalo diferente ( Magee, 1998, The American Statistician e Frank Harrell's Regression Modeling Strategies ). E, é claro, splines restritas, lineares fora dos nós extremais, são melhores para extrapolação, ou mesmo intrapolação a valores extremos dos preditores.
Um caso em que você pode considerar polinômios é quando é importante explicar seu modelo para um público não técnico. As pessoas entendem os polinômios melhor do que as splines. (Edit: Matthew Drury salienta que as pessoas podem pensar que entendem melhor os polinômios do que as splines. Não vou tomar partido nesta questão.)
As plotagens geralmente não são muito úteis para decidir entre diferentes maneiras de lidar com a não linearidade. Melhor fazer a validação cruzada. Isso também ajudará você a avaliar interações ou a encontrar uma boa penalização.
Finalmente, minha resposta não muda com o tipo de modelo, porque os pontos acima são válidos para qualquer modelo estatístico ou ML.
fonte
Na seção 7.4.5 de "Os elementos do aprendizado estatístico", é dito que os splines geralmente oferecem resultados superiores à regressão polinomial, porque:
fonte