Qual a diferença entre splines cúbicos restritos e splines penalizados?

11

Estou lendo muito sobre o uso de splines em vários problemas de regressão. Alguns livros (por exemplo, modelos lineares ricamente parametrizados da Hodges ) recomendam splines penalizadas. Outros (por exemplo, estratégias de modelagem de regressão de Harrell ) optam por splines cúbicos restritos.

Quão diferentes são esses, na prática? Você costuma obter resultados substancialmente diferentes ao usar um ou outro? Um ou outro tem vantagens particulares?

Peter Flom - Restabelece Monica
fonte

Respostas:

8

Pela minha leitura, os dois conceitos que você nos pede para comparar são animais muito diferentes e exigiriam uma comparação semelhante a maçãs e laranjas. Isso faz com que muitas de suas perguntas sejam um pouco controversas - idealmente (supondo que alguém possa escrever uma penalidade de manobra para baixo para a base RCS no formulário necessário), você usaria um modelo de spline de regressão cúbica restrita penalizado.

Splines cúbicos restritos

Um spline cúbico restrito (ou um spline natural) é uma base de spline criada a partir de funções polinomiais cúbicas por partes que se unem suavemente em alguns locais ou nós pré-especificados. O que distingue um spline cúbico restrito de um spline cúbico é que restrições adicionais são impostas à versão restrita, de modo que o spline seja linear antes do primeiro nó e após o último nó. Isto é feito para melhorar o desempenho do spline nas caudas dos .X

A seleção de modelos com um RCS geralmente envolve a escolha do número de nós e sua localização, com o primeiro determinando o quão complicado ou complexo é o spline resultante. A menos que outras etapas sejam implementadas para regularizar os coeficientes estimados quando o modelo é ajustado, o número de nós controla diretamente a complexidade do spline.

Isso significa que o usuário tem alguns problemas a serem superados ao estimar um modelo que contém um ou mais termos RCS:

  1. Quantos nós usar ?,
  2. Onde colocar esses nós no espaço de ?,X
  3. Como comparar modelos com diferentes números de nós?

Por si só, os termos do RCS requerem intervenção do usuário para resolver esses problemas.

Splines penalizados

As splines de regressão penalizadas (sensu Hodges) apenas no seu próprio problema 3. , mas permitem que o problema 1. seja contornado. A idéia aqui é que, além da expansão da base do , e, por enquanto, vamos supor que essa é uma base de spline cúbica, você também cria uma matriz de penalidade de wiggliness. Wiggliness é medida utilizando algum derivado do estriado estimado, com o derivado típicos usados sendo a segunda derivada, e a penalidade em si representa a segunda derivada quadrado integrado ao longo do intervalo de . Esta penalidade pode ser escrita em forma quadrática comoXX

βTSβ

onde é uma matriz de penalidade e são os coeficientes do modelo. Em seguida, são encontrados valores de coeficiente para maximizar o critério de probabilidade de log penalizadaSβLp

Lp=LλβTSβ

onde é a probabilidade de log do modelo e é o parâmetro de suavidade, que controla com que intensidade penalizar a ondulação do spline.Lλ

Como a probabilidade logarítmica penalizada pode ser avaliada em termos dos coeficientes do modelo, ajustá-lo efetivamente se torna um problema para encontrar um valor ideal para enquanto atualiza os coeficientes durante a pesquisa desse ideal .λλ

λ pode ser escolhido usando validação cruzada, validação cruzada generalizada (GCV) ou probabilidade marginal ou critério de probabilidade marginal restrita. Os dois últimos reformulam efetivamente o modelo de spline como um modelo de efeitos mistos (as partes perfeitamente suaves da base tornam-se efeitos fixos e as partes onduladas da base são efeitos aleatórios, e o parâmetro suavidade está inversamente relacionado ao termo de variação para os efeitos aleatórios ), que é o que Hodges está considerando em seu livro.

Por que isso resolve o problema de quantos nós usar? Bem, isso meio que faz isso. Isso resolve o problema de não exigir um nó em cada ponto de dados exclusivo (um spline de suavização), mas você ainda precisa escolher quantos nós ou funções básicas usar. No entanto, como a penalidade diminui os coeficientes, você pode optar por uma dimensão base tão grande quanto achar necessária para conter a função verdadeira ou uma aproximação aproximada dela, e então você permite que a penalidade controle o quão distorcido o spline estimado finalmente isto é, com o potencial extra de manobra disponível na base sendo removido ou controlado pela penalidade.

Comparação

Splines penalizados (regressão) e RCS são conceitos bastante diferentes. Não há nada que impeça a criação de uma base RCS e uma penalidade associada na forma quadrática e a estimativa dos coeficientes da spline usando as idéias do modelo de spline de regressão penalizada.

O RCS é apenas um tipo de base que você pode usar para criar uma base de spline, e as splines de regressão penalizadas são uma maneira de estimar um modelo que contém um ou mais splines com penalidades de ondulação associadas.

Podemos evitar os problemas 1., 2. e 3.?

Sim, até certo ponto, com uma base de spline de placa fina (TPS). Uma base de TPS tem como muitas funções de base de dados como valores originais em . O que Wood (2003) mostrou foi que você pode criar uma base TPRS ( Thin Plate Regression Spline) usando uma composição automática das funções da base TPS e mantendo apenas a primeira palavra maior. Você ainda precisa especificarXkk, o número de funções básicas que você deseja usar, mas a escolha geralmente se baseia em quão confusa você espera que a função ajustada seja e em quanto hit computacional você deseja receber. Também não há necessidade de especificar os locais dos nós, e a penalidade diminui os coeficientes, para evitar o problema de seleção de modelos, pois você só tem um modelo penalizado e não muitos não penalizados com números diferentes de nós.

P-splines

Apenas para tornar as coisas mais complicadas, existe um tipo de base de spline conhecida como P-spline (Eilers & Marx, 1996)), na qual o geralmente é interpretado como "penalizado". As splines P são uma base da spline B com uma penalidade de diferença aplicada diretamente aos coeficientes do modelo. No uso típico, a penalidade da spline P penaliza as diferenças ao quadrado entre os coeficientes do modelo adjacente, o que, por sua vez, penaliza a ondulação. Os splines P são muito fáceis de configurar e resultam em uma matriz de penalidade esparsa, o que os torna muito passíveis de estimativa de termos de splines em modelos bayesianos baseados em MCMC (Wood, 2017).P

Referências

Eilers, PHC e BD Marx. 1996. Suavização flexível com linhas e multas. Estado. Sci.

Wood, SN 2003. Splines de regressão em placas finas. JR Stat. Soc. Série B Stat. Methodol. 65: 95-114. doi: 10.1111 / 1467-9868.00374

Wood, SN 2017. Modelos Aditivos Generalizados: Uma Introdução com R, Segunda Edição, CRC Press.

Gavin Simpson
fonte
4
+6, excelente tratamento. Lembre-me daqui a alguns dias, se eu esquecer, e vou dar uma recompensa por isso.
gung - Restabelece Monica
11
Obrigado por isso!
Peter Flom - Restabelece Monica
A recompensa ??????
Kjetil b halvorsen