Qual é a justificativa estatística da interpolação?

16

Suponha que temos dois pontos (a figura a seguir: círculos pretos) e queremos encontrar um valor para um terceiro ponto entre eles (cruz). De fato, vamos estimar isso com base em nossos resultados experimentais, os pontos negros. O caso mais simples é desenhar uma linha e depois encontrar o valor (isto é, interpolação linear). Se tivéssemos pontos de apoio, por exemplo, como pontos marrons nos dois lados, preferimos nos beneficiar deles e ajustar uma curva não linear (curva verde).

A questão é: qual é o raciocínio estatístico para marcar a cruz vermelha como a solução? Por que outras cruzes (por exemplo, amarelas) não são respostas onde poderiam estar? Que tipo de inferência ou (?) Nos leva a aceitar a vermelha?

Vou desenvolver minha pergunta original com base nas respostas obtidas para essa pergunta muito simples.

insira a descrição da imagem aqui

Desenvolvedor
fonte
7
Esta é uma pergunta muito bem colocada e interessante. Convém distinguir entre interpolação de séries temporais e outras formas de interpolação (como splp ou interpolação espacial), devido à direcionalidade inerente às séries temporais.
whuber
1
A minha apreciação vai para este comentário muito motivacional.
Desenvolvedor
Veja também Como funciona a interpolação de Kriging? .
Scortchi - Reinstate Monica

Respostas:

14

Qualquer forma de ajuste de função, mesmo que não paramétrica (que normalmente faz suposições sobre a suavidade da curva envolvida), envolve suposições e, portanto, um salto de fé.

A solução antiga de interpolação linear é aquela que 'simplesmente funciona' quando os dados que você possui são refinados 'o suficiente' (se você olhar para um círculo suficientemente próximo, ele também parece plano - basta perguntar a Columbus), e era possível até antes da era do computador (o que não é o caso de muitas soluções modernas de splines). Faz sentido assumir a crença de que a função 'continuará na mesma matéria (ou seja, linear)' entre os dois pontos, mas não uma razão a priori para isso (exceto o conhecimento sobre os conceitos em questão).

Torna-se rapidamente claro quando você tem três (ou mais) pontos não colineares (como quando você adiciona os pontos marrons acima), que a interpolação linear entre cada um deles logo envolverá cantos afiados em cada um deles, o que normalmente é indesejável. É aí que as outras opções entram.

No entanto, sem um conhecimento adicional do domínio, não há como afirmar com certeza que uma solução é melhor que a outra (para isso, você precisaria saber qual é o valor dos outros pontos, derrotando o propósito de ajustar a função no primeiro lugar).

Pelo lado positivo, e talvez mais relevante para a sua pergunta, sob 'condições de regularidade' (leia-se: suposições : se sabemos que a função é, por exemplo, suave), a interpolação linear e as outras soluções populares podem ser consideradas 'razoáveis' aproximações. Ainda: requer suposições e, para elas, normalmente não temos estatísticas.

Nick Sabbe
fonte
Esta é uma boa resposta e meu candidato deve ser marcado como a resposta. Eu entendi que não há justificativa estatística para uma escolha tão comum, certo?
Desenvolvedor
Na verdade, acredito que não há um, não.
Nick Sabbe 4/10
2
Alguma literatura (envolvendo competições para interpolar amostras de conjuntos de dados conhecidos) valida parcialmente essa resposta, mas não inteiramente. Pode-se aprender muito sobre a correlação espacial dos dados através da análise estatística dos dados, sem nenhuma "condição de regularidade". O que é necessário é um modelo de dados como uma amostra de uma realização de um processo estocástico, juntamente com (1) uma hipótese ergódica e (na maioria dos casos) (2) algum tipo de suposição de estacionariedade. Nesse contexto, a interpolação se torna predição de uma expectativa, mas mesmo curvas não diferenciáveis ​​são permitidas.
whuber
1
@ whuber: Estou fora da minha zona de conforto aqui, mas tudo depois de "condições de regularidade" no seu comentário parece uma quantidade bastante sólida de suposições (estacionariedade provavelmente equivaleria a uma condição de regularidade, não?). Na verdade, acho que vai depender se o tamanho da sua amostra é grande no que diz respeito às irregularidades na forma funcional ... Você pode dar uma referência a um artigo ou a artigos que não sejam esse o caso?
22611 Nick Ellie
2
Você não pode fazer nada sem suposições, Nick! Mas a regularidade (como suavidade da função) não é necessária: ela pode ser deduzida dos dados, pelo menos na escala em que a função é amostrada. (A estacionariedade é uma suposição muito mais branda que a suavidade.) Você está certo quanto à necessidade de amostras grandes, mas muito pode ser aprendido em 2D, mesmo com 30-50 locais de amostra bem escolhidos. A literatura é grande; por exemplo, a maioria das questões de geologia matemática é dedicada a isso. Para uma introdução rigorosa, consulte Estatísticas Espaciais
whuber
0

Você pode calcular a equação linear para a linha de melhor ajuste (por exemplo, y = 0,4554x + 0,7525), mas isso só funcionaria se houvesse um eixo rotulado. No entanto, isso não daria a resposta exata apenas a mais adequada em relação aos outros pontos.

Claire Winterbourne
fonte
Mas regressão não é interpolação .
Scortchi - Restabelece Monica
1
@ Scortchi Eu acredito que a regressão pode ser entendida como interpolação. No entanto, propor a regressão como uma solução não responde à pergunta, que nos pede para explicar por que qualquer tipo de interpolação é justificável (e implicitamente nos convida a descrever as premissas necessárias para justificá-la).
whuber
@ whuber: Obrigado. Eu estava pensando em interpolação, pelo menos prototipicamente, como juntar os pontos - stats.stackexchange.com/a/33662/17230 .
Scortchi - Restabelece Monica
@ Scortchi Esse segmento trata principalmente do conceito matemático de interpolação em uma tabela. Em um comentário à sua pergunta, apontei o entendimento estatístico convencional da interpolação, que é sutilmente diferente. A regressão funciona nos dois mundos: uma função de regressão pode servir como um interpolador matemático (para uma função bem definida que é amostrada em uma tabela), bem como um interpolador estatístico (por meio de previsões estatísticas dos valores de um processo estocástico condicional a um número finito de valores derivados desse processo).
whuber
1
nn