Seleção de k nós no spline de suavização de regressão equivalente a k variáveis ​​categóricas?

9

Estou trabalhando em um modelo de custo preditivo em que a idade do paciente (uma quantidade inteira medida em anos) é uma das variáveis ​​preditivas. Uma forte relação não linear entre idade e risco de internação é evidente:

insira a descrição da imagem aqui

Estou pensando em uma spline de suavização de regressão penalizada para a idade do paciente. De acordo com The Elements of Statistical Learning (Hastie et al, 2009, p.151), a colocação ideal do nó é de um nó por valor único da idade do membro.

Dado que estou mantendo a idade como um número inteiro, o spline de suavização penalizado é equivalente a executar uma regressão ou laço de cume com 101 variáveis ​​distintas de indicador de idade, um valor por idade encontrado no conjunto de dados (menos um para referência)? A super parametrização é evitada, pois os coeficientes em cada indicador de idade são reduzidos para zero.

RobertF
fonte
Sua proposta de etários indicadores + encolhimento é essencialmente a mesma coisa que uma spline suavização de ordem 0.
Glen_b -Reinstate Monica
Seria útil se você especificasse quais são as outras variáveis ​​preditivas, como uma das respostas sugeridas, se você controlar pelo motivo da admissão, poderá ter um gráfico muito diferente.
seanv507

Respostas:

11

Ótima pergunta. Acredito que a resposta para a pergunta que você faz - "é o spline de suavização penalizado equivalente a executar uma regressão ou laço de crista" - é sim. Existem várias fontes por aí que podem fornecer comentários e perspectivas. Um lugar que você pode querer começar é esse link em PDF . Como é observado nas notas:

"Ajustar um modelo de spline de suavização equivale a executar uma forma de regressão de crista em uma base para splines naturais".

Se você está procurando alguma leitura geral, pode ler este excelente artigo sobre regressões penalizadas: a ponte versus o laço . Isso pode ajudar a responder à pergunta se o spline de suavização penalizado é exatamente equivalente - embora ele ofereça uma perspectiva mais geral. Acho interessante porque eles compararam diferentes técnicas entre si, especificamente um novo modelo de regressão de ponte com o LASSO, bem como a regressão de Ridge.

Outro local mais tático para verificar pode ser as notas do pacote smooth.spline em R. Observe que elas sugerem o relacionamento aqui, observando que: "com essas definições, onde a representação da base do spline B pode ser declarada como f = X c (isto é, c é o vetor dos coeficientes spline), a probabilidade do log penalizado é , e, portanto, é a solução da (regressão de crista) . "c ( X T W X + λ Σ ) c = X T W yeu=(y-f)TW(y-f)+λcTΣcc(XTWX+λΣ)c=XTWy

Nathaniel Payne
fonte
Não se preocupe @RobertF. Tenha uma ótima tarde.
Nathaniel Payne
11
O link para o PDF do link no parágrafo 1 está quebrado.
Jthorpe
3

Não tenho certeza se você realmente quer tantos nós, dada a trama.

Parece que você pode ter algumas amostras pequenas em idades específicas; o pico em 74 e os valores 0 na extremidade baixa e na alta fazem pouco sentido.

Dada a autoridade da fonte que você site, talvez você queira splines cúbicos restritos, com um número muito menor de nós?

Peter Flom - Restabelece Monica
fonte
11
Obrigado Peter - sim, o número de obs são escassos para jovens e idosos. Usar tantos nós parece contra-intuitivo; na primeira leitura em ESL, fiz uma dupla leitura mental de que dar um nó em todas as observações minimiza a soma residual penalizada dos quadrados. Suponho que a prova esteja no pudim de saber se um spline cúbico restrito ou um spline de suavização penalizado funcionam melhor em prever minha variável de resposta no conjunto de dados de teste.
precisa saber é o seguinte
0

Estou atrasado para esta discussão, mas observe o gráfico dos dados ... que a aparente espigada nos dados acima dos 70 anos não é um reflexo real do risco relacionado à idade, é um sintoma de dados esparsos e alguma aleatoriedade.

Você não gostaria de modelar isso usando um nó por ano, que certamente levaria a um excesso de ajuste do ruído.

Além disso, você encontrará um padrão muito diferente se olhar para o feminino e o masculino. A maior parte do pico na faixa de 15 a 30 anos será de Obstetrícia.

Doug Dame
fonte
Hi Doug - Certo, existem definitivamente menos observações com mais de 70 anos. Um modelo de spline penalizado por um ano por nó provavelmente reduziria os coeficientes de mais de 70 a zero. O objetivo aqui seria substituir a seleção manual de colocação de nós por um processo automatizado que melhor se encaixe na relação não-linear entre idade e admissão de PI, especialmente útil em um modelo preditivo.
robertf