B-Splines VS polinômios de alta ordem em regressão

10

Não tenho um exemplo ou tarefa específica em mente. Eu sou apenas novo no uso de splines-b e queria entender melhor essa função no contexto de regressão.

Vamos supor que queremos avaliar a relação entre a variável resposta e alguns preditores x 1 , x 2 , . . . , x p . Os preditores incluem algumas variáveis ​​numéricas e outras categóricas.yx1 1,x2,...,xp

Digamos que, depois de ajustar um modelo de regressão, uma das variáveis ​​numéricas, por exemplo, seja significativa. Um passo lógico depois é avaliar se os polinômios de ordem superior, por exemplo: x 2 1 e x 3 1, são necessários para explicar adequadamente o relacionamento sem superajustar.x1 1x1 12x1 13

Minhas perguntas são:

  1. Em que momento você escolheu entre splines-b ou polinômio simples de ordem superior. por exemplo, em R:

    y ~ poly(x1,3) + x2 + x3
    

    vs

     y ~ bs(x1,3) + x2 + x3
    
  2. Como você pode usar gráficos para informar sua escolha entre esses dois e o que acontece se não estiver muito claro a partir dos gráficos (por exemplo: devido à grande quantidade de pontos de dados)

  3. Como você avalia os termos de interação bidirecional entre e, digamos, x 3x2x3

  4. Como as alterações acima são alteradas para diferentes tipos de modelos

  5. Você consideraria nunca usar polinômios de alta ordem e sempre ajustar b-splines e penalizar a alta flexibilidade?

Vasilis Vasileiou
fonte
9
Eu escrevi sobre isso extensivamente aqui: madrury.github.io/jekyll/update/statistics/2017/08/04/…
Matthew Drury
Dado o quão bem desenvolvido mgcvé, por que não usar modelos aditivos (generalizados). A seleção da suavidade é automática e os métodos inferenciais são bem desenvolvidos.
generic_user

Respostas:

17

Normalmente, eu consideraria apenas splines em vez de polinômios. Os polinômios não podem modelar limiares e geralmente são indesejáveis ​​globais, ou seja, as observações em um intervalo do preditor influenciam fortemente o que o modelo faz em um intervalo diferente ( Magee, 1998, The American Statistician e Frank Harrell's Regression Modeling Strategies ). E, é claro, splines restritas, lineares fora dos nós extremais, são melhores para extrapolação, ou mesmo intrapolação a valores extremos dos preditores.

Um caso em que você pode considerar polinômios é quando é importante explicar seu modelo para um público não técnico. As pessoas entendem os polinômios melhor do que as splines. (Edit: Matthew Drury salienta que as pessoas podem pensar que entendem melhor os polinômios do que as splines. Não vou tomar partido nesta questão.)

As plotagens geralmente não são muito úteis para decidir entre diferentes maneiras de lidar com a não linearidade. Melhor fazer a validação cruzada. Isso também ajudará você a avaliar interações ou a encontrar uma boa penalização.

Finalmente, minha resposta não muda com o tipo de modelo, porque os pontos acima são válidos para qualquer modelo estatístico ou ML.

Stephan Kolassa
fonte
Muito obrigado pela sua resposta, foi muito útil. Apenas uma pergunta rápida de acompanhamento. Existe uma maneira "avançada" de encontrar os nós? Meu melhor palpite seria: 1) Usar intuição, por exemplo: se a variável representa o tempo em termos de meses, use nós a cada 6 ou 12? 2) introduza uma sequência que atravessa o intervalo da variável e use a validação cruzada para encontrar os nós ideais, talvez?
Vasilis Vasileiou
8
As pessoas pensam que entendem melhor os polinômios do que as splines.
Matthew Drury
3
Em relação à colocação de nós: a validação cruzada é uma abordagem, mas, para ser honesto, acho que os resultados serão bastante insensíveis ao conhecimento da colocação, desde que os nós sejam colocados razoavelmente e não se agrupem muito. Frank Harrell tem uma tabela com colocações de nós heurísticos em termos de quantis da distribuição do preditor em Estratégias de Modelagem de Regressão .
Stephan Kolassa
11
Embora sua resposta seja totalmente válida nesse contexto, sua afirmação é muito forte, considerando que muitos processos do mundo real podem ser melhor modelados por polinômios.
koalo
6

Na seção 7.4.5 de "Os elementos do aprendizado estatístico", é dito que os splines geralmente oferecem resultados superiores à regressão polinomial, porque:

  • Produz ajustes flexíveis;
  • Produz estimativas mais estáveis;
  • Polinômios podem produzir resultados indesejáveis ​​nos limites.
Bruna w
fonte