Estou trabalhando em um modelo de custo preditivo em que a idade do paciente (uma quantidade inteira medida em anos) é uma das variáveis preditivas. Uma forte relação não linear entre idade e risco de internação é evidente:
Estou pensando em uma spline de suavização de regressão penalizada para a idade do paciente. De acordo com The Elements of Statistical Learning (Hastie et al, 2009, p.151), a colocação ideal do nó é de um nó por valor único da idade do membro.
Dado que estou mantendo a idade como um número inteiro, o spline de suavização penalizado é equivalente a executar uma regressão ou laço de cume com 101 variáveis distintas de indicador de idade, um valor por idade encontrado no conjunto de dados (menos um para referência)? A super parametrização é evitada, pois os coeficientes em cada indicador de idade são reduzidos para zero.
Respostas:
Ótima pergunta. Acredito que a resposta para a pergunta que você faz - "é o spline de suavização penalizado equivalente a executar uma regressão ou laço de crista" - é sim. Existem várias fontes por aí que podem fornecer comentários e perspectivas. Um lugar que você pode querer começar é esse link em PDF . Como é observado nas notas:
"Ajustar um modelo de spline de suavização equivale a executar uma forma de regressão de crista em uma base para splines naturais".
Se você está procurando alguma leitura geral, pode ler este excelente artigo sobre regressões penalizadas: a ponte versus o laço . Isso pode ajudar a responder à pergunta se o spline de suavização penalizado é exatamente equivalente - embora ele ofereça uma perspectiva mais geral. Acho interessante porque eles compararam diferentes técnicas entre si, especificamente um novo modelo de regressão de ponte com o LASSO, bem como a regressão de Ridge.
Outro local mais tático para verificar pode ser as notas do pacote smooth.spline em R. Observe que elas sugerem o relacionamento aqui, observando que: "com essas definições, onde a representação da base do spline B pode ser declarada como f = X c (isto é, c é o vetor dos coeficientes spline), a probabilidade do log penalizado é , e, portanto, é a solução da (regressão de crista) . "c ( X T W X + λ Σ ) c = X T W yL = ( y- f)TW( y- f) + λ cTΣ c c ( XTWX+ λ Σ ) c = XTWy
fonte
Não tenho certeza se você realmente quer tantos nós, dada a trama.
Parece que você pode ter algumas amostras pequenas em idades específicas; o pico em 74 e os valores 0 na extremidade baixa e na alta fazem pouco sentido.
Dada a autoridade da fonte que você site, talvez você queira splines cúbicos restritos, com um número muito menor de nós?
fonte
Estou atrasado para esta discussão, mas observe o gráfico dos dados ... que a aparente espigada nos dados acima dos 70 anos não é um reflexo real do risco relacionado à idade, é um sintoma de dados esparsos e alguma aleatoriedade.
Você não gostaria de modelar isso usando um nó por ano, que certamente levaria a um excesso de ajuste do ruído.
Além disso, você encontrará um padrão muito diferente se olhar para o feminino e o masculino. A maior parte do pico na faixa de 15 a 30 anos será de Obstetrícia.
fonte