Quais são as vantagens / desvantagens do uso de splines, splines suavizadas e emuladores de processos gaussianos?

20

Estou interessado em aprender (e implementar) uma alternativa à interpolação polinomial.

No entanto, estou tendo problemas para encontrar uma boa descrição de como esses métodos funcionam, como eles se relacionam e como eles se comparam.

Agradecemos sua opinião sobre os prós / contras / condições sob as quais esses métodos ou alternativas seriam úteis, mas algumas boas referências a textos, slides ou podcasts seriam suficientes.

David LeBauer
fonte
Isso é realmente uma pergunta muito interessante, mas talvez (apenas talvez) mais apropriada para math.stackexchange.com ?
Steffen
Há algum material sobre splines e suavização de splines em The Elements of Statistical Learning por Hastie et al.
NPE
8
Eu acho que essa é uma pergunta perfeitamente razoável sobre estatística de computação.
precisa saber é o seguinte
@csgillespie: Tudo o que sei sobre splines e interpolação que aprendi em aulas numéricas / de matemática. Por isso, posso ser um pouco tendencioso;).
steffen

Respostas:

24

A regressão básica do OLS é uma técnica muito boa para ajustar uma função a um conjunto de dados. No entanto, regressão simples só se encaixa uma linha reta que é constante para toda a gama possível de . Isso pode não ser apropriado para uma determinada situação. Por exemplo, os dados às vezes mostram um relacionamento curvilíneo . Isso pode ser tratado por meio da regressão de Y em uma transformação de X , f ( X ) . Diferentes transformações são possíveis. Nas situações em que a relação entre X e Y é monotônica , mas diminui continuamente, uma transformação de logXYXf(X)XYpode ser usado. Outra opção popular é usar um polinômio em que novos termos são formados elevando a uma série de potências (por exemplo, X 2 , X 3 , etc.). Essa estratégia é fácil de implementar e você pode interpretar o ajuste informando quantas 'dobras' existem nos seus dados (onde o número de dobras é igual à maior potência necessária menos 1). XX2X3

No entanto, regressões baseadas no logaritmo ou em um expoente da covariável se ajustarão de maneira ideal apenas quando essa for a natureza exata do verdadeiro relacionamento. É bastante razoável imaginar que exista uma relação curvilínea entre e Y que seja diferente das possibilidades que essas transformações oferecem. Assim, chegamos a duas outras estratégias. A primeira abordagem é loess , uma série de regressões lineares ponderadas calculadas sobre uma janela em movimento. Essa abordagem é mais antiga e mais adequada para a análise exploratória de dados . XY

A outra abordagem é usar splines. Em que é mais simples, uma spline é um novo termo que se aplica a apenas uma parte da gama de . Por exemplo, X pode variar de 0 a 1, e o termo spline pode variar de 0,7 a 1. Nesse caso, 0,7 é o . Um termo spline simples e linear seria calculado da seguinte forma: X s p l i n e = { 0XX e seria adicionado ao seu modelo,alémdotermoXoriginal. O modelo ajustado mostrará uma quebra acentuada em 0,7 com uma linha reta de 0 a 0,7, e a linha continuando com uma inclinação diferente de 0,7 a 1. No entanto, um termo de spline não precisa ser linear. Especificamente, foi determinado que splines cúbicos são especialmente úteis (ou seja,X 3 s p l i n e

XspeuEune={0 0E se X.7X-.7E se X>.7

XXspeuEune3) A quebra acentuada não precisa estar lá também. Foram desenvolvidos algoritmos que restringem os parâmetros ajustados, de modo que a primeira e a segunda derivadas correspondam aos nós, o que torna impossível a detecção dos nós na saída. O resultado final de tudo isso é que, com apenas alguns nós (geralmente 3-5) nos locais de escolha (que o software pode determinar para você), é possível reproduzir praticamente qualquercurva. Além disso, os graus de liberdade são calculados corretamente, para que você possa confiar nos resultados, o que não é verdade quando você olha primeiro para seus dados e depois decide ajustar um termo ao quadrado porque viu uma dobra. Além disso, tudo isso é apenas outra versão (embora mais complicada) do modelo linear básico. Assim, tudo o que obtemos com modelos lineares vem com isso (por exemplo, previsões, resíduos, faixas de confiança, testes etc.) Essas são vantagens substanciais .

A introdução mais simples a esses tópicos que eu conheço é:

- Reinstate Monica
fonte
6

As anotações on-line de Cosma Shalizi em seu curso de palestra Análise de dados avançada de um ponto de vista elementar são muito boas sobre esse assunto, analisando as coisas de uma perspectiva em que interpolação e regressão são duas abordagens para o mesmo problema. Eu particularmente chamaria sua atenção para os capítulos sobre métodos de suavização e splines .

Martin O'Leary
fonte
Seus links podem usar a atualização. Eu tentei, mas você deve verificar se minhas edições propostas atingem as páginas que você pretendia.
Gregor