Extrapolação v. Interpolação

28

Qual é a diferença entre extrapolação e interpolação e qual é a maneira mais precisa de usar esses termos?

Por exemplo, eu vi uma declaração em um documento usando interpolação como:

"O procedimento interpola a forma da função estimada entre os pontos da posição"

Uma frase que usa extrapolação e interpolação é, por exemplo:

A etapa anterior em que extrapolamos a função interpolada usando o método Kernel para as caudas de temperatura esquerda e direita.

Alguém pode fornecer uma maneira clara e fácil de diferenciá-los e orientar como usar esses termos corretamente com um exemplo?

Frank Swanton
fonte
1
Uma questão relacionada.
JM não é um estatístico
1
Possível duplicata de O que há de errado com a extrapolação?
usεr11852 diz Reinstate Monic
@ usεr11852 Acho que as duas perguntas cobrem um terreno semelhante, mas são diferentes porque essa pergunta pelo contraste com a interpolação.
mkt - Restabelece Monica
Essa distinção entre interpolação e extrapolação foi formalizada rigorosamente de uma maneira geralmente acordada (por exemplo, através de cascos convexos) ou esses termos ainda estão sujeitos ao julgamento e interpretação humanos?
Nick Alger

Respostas:

51

Para adicionar uma explicação visual para isso: vamos considerar alguns pontos que você planeja modelar.

insira a descrição da imagem aqui

Eles parecem poder ser bem descritos com uma linha reta, então você deve ajustar uma regressão linear a eles:

insira a descrição da imagem aqui

Essa linha de regressão permite interpolar (gerar valores esperados entre os pontos de dados) e extrapolar (gerar valores esperados fora do intervalo dos pontos de dados). Eu destaquei a extrapolação em vermelho e a maior região de interpolação em azul. Para deixar claro, até as regiões minúsculas entre os pontos são interpoladas, mas estou destacando apenas a grande aqui.

insira a descrição da imagem aqui

Por que a extrapolação geralmente é mais uma preocupação? Porque você geralmente tem muito menos certeza sobre a forma do relacionamento fora do intervalo de seus dados. Considere o que pode acontecer quando você coletar mais alguns pontos de dados (círculos vazios):

insira a descrição da imagem aqui

Acontece que o relacionamento não foi bem capturado com o seu hipotético relacionamento, afinal. As previsões na região extrapolada estão muito longe. Mesmo que você tenha adivinhado a função precisa que descreve esse relacionamento não-linear corretamente, seus dados não se estendem acima de um intervalo suficiente para capturar bem a não-linearidade; portanto, você ainda pode estar muito distante. Observe que este é um problema não apenas para regressão linear, mas para qualquer relacionamento - é por isso que a extrapolação é considerada perigosa.

As previsões na região interpolada também estão incorretas devido à falta de não linearidade no ajuste, mas o erro de previsão é muito menor. Não há garantia de que você não tenha um relacionamento inesperado entre seus pontos (por exemplo, a região de interpolação), mas geralmente é menos provável.


Acrescentarei que a extrapolação nem sempre é uma péssima idéia - se você extrapolar um pouquinho fora do intervalo de seus dados, provavelmente não ficará muito errado (embora isso seja possível!). Antigos que não tinham um bom modelo científico do mundo não estariam muito errados se previssem que o sol nasceria novamente no dia seguinte e no dia seguinte (embora um dia no futuro, mesmo isso falhe).

E, às vezes, a extrapolação pode até ser informativa - por exemplo, extrapolações simples a curto prazo do aumento exponencial do CO atmosférico têm sido razoavelmente precisas nas últimas décadas. Se você fosse um estudante que não possuía conhecimentos científicos, mas desejasse uma previsão aproximada e de curto prazo, isso lhe daria resultados razoáveis. Porém, quanto mais longe você extrapolar seus dados, maior a probabilidade de sua previsão falhar e falhar desastrosamente, conforme descrito muito bem neste ótimo tópico: O que há de errado na extrapolação? (obrigado a @JMisnotastatistician por me lembrar disso).2

Edite com base nos comentários: seja interpolando ou extrapolando, é sempre melhor ter alguma teoria para fundamentar as expectativas. Se for necessário realizar modelagem sem teoria , o risco de interpolação é geralmente menor que o risco de extrapolação. Dito isto, à medida que a diferença entre os pontos de dados aumenta em magnitude, a interpolação também se torna cada vez mais repleta de riscos.

mkt - Restabelecer Monica
fonte
5
Gosto da sua resposta e a considero complementar à minha e, em nenhum sentido, competitiva. Mas um pequeno ponto, importante para alguns leitores, é que vermelho e verde são difíceis de distinguir visualmente por muitas pessoas.
Nick Cox
1
@NickCox Bom argumento, obrigado por aumentar isso - agora mudei o esquema de cores.
mkt - Restabelece Monica
1
@leftaroundabout Meu argumento é que o padrão da curva de Keeling é tão forte que extrapolações que ignoram a economia e a física ainda são razoavelmente precisas na escala de anos a algumas décadas. Eu observei as "últimas décadas" precisamente porque essa é a escala de tempo em que realizamos medições de alta resolução. Este é um exemplo em que a extrapolação não o levaria muito a sério e acho que vale a pena notar. Eu acho que seria uma leitura intencional para alegar que esta resposta está defendendo a extrapolação livre de teoria.
mkt - Restabelece Monica
1
De maneira semelhante, dei o "exemplo de peru" de Taleb nesta resposta como um aviso para pessoas que usam extrapolação.
JM não é um estatístico
1
A extrapolação é especialmente problemática quando você tem excesso de ajuste; com um modelo polinomial, por exemplo, sair significativamente do conjunto de dados resultará na explosão do termo de ordem mais alta.
Acumulação 25/07
21

Em essência, a interpolação é uma operação no suporte de dados ou entre pontos de dados conhecidos existentes; extrapolação está além do suporte de dados . Em outras palavras, o critério é: onde estão os valores ausentes?

Uma razão para a distinção é que a extrapolação é geralmente mais difícil de se dar bem, e até perigosa, estatisticamente, se não na prática. Isso nem sempre é verdade: por exemplo, as inundações dos rios podem sobrecarregar os meios de medir a vazão ou até o estágio (nível vertical), abrindo um buraco no registro medido. Nessas circunstâncias, a interpolação de descarga ou estágio também é difícil e estar dentro do suporte de dados não ajuda muito.

A longo prazo, a mudança qualitativa geralmente substitui a mudança quantitativa. Por volta de 1900, havia muita preocupação de que o crescimento do tráfego puxado por cavalos inundasse as cidades com excrementos principalmente indesejados. O exponencial no excremento foi substituído pelo mecanismo de combustão interna e seus diferentes exponenciais.

Uma tendência é uma tendência é uma tendência,
mas a questão é: será que vai dobrar?
Mudará seu curso
Por alguma força imprevista
E chegará a um fim prematuro?

- Alexander Cairncross

Cairncross, A. 1969. Previsão econômica. The Economic Journal , 79: 797-812. doi: 10.2307 / 2229792 (cotação na p.797)

Nick Cox
fonte
1
Boa resposta. A interpretação está ali no nome - interpolação = suavizar por dentro, extrapolação = suavizar além.
Nuclear Wang
1
IMO, esta é a resposta correta. "Suporte de dados" é a parte crucial; mesmo que o ponto que você deseja ir seja entre dois medidos, ele ainda pode estar fora do suporte de dados. Por exemplo, se você tiver dados de prosperidade para pessoas da antiguidade romana e dos dias modernos, mas não no meio, a interpolação para a Idade Média seria muito problemática. Eu chamaria isso de extrapolação. OTOH, se você tiver dados dispersos esparsamente, mas uniformemente, durante todo o período, a interpolação para um ano específico será muito mais plausível.
leftaroundabout
1
@leftaroundabout Só porque a interpolação pode ser feita sobre uma enorme lacuna de dados não a torna extrapoladora. Você está confundindo a conveniência do procedimento com o próprio procedimento. Às vezes, a interpolação também é uma má idéia.
mkt - Restabelece Monica
1
@mkt: Eu vou ficar de fora de que o primeiro exemplo dele pode ser considerado extrapolação, já que interpolação vs extrapolação não é tão bem definida quanto podemos pensar. Uma simples transformação de variáveis ​​pode transformar interpolação em extrapolação. No exemplo dele, usar algo como funções de distância em vez de tempo bruto significa que, enquanto no tempo bruto estamos interpolando, nas distâncias estamos extrapolando ... e usar tempos brutos provavelmente seria uma má idéia.
Cliff AB
1
Esta é a minha resposta. Não sinto necessidade de qualificá-lo. Uma ampla distinção entre interpolação e extrapolação não exclui que seja um pouco difícil decidir qual está sendo realizado. Se você tiver um grande buraco no meio do espaço de dados, a etiquetagem pode ser feita de qualquer maneira. Como alguns apontaram, o fato de o final do dia e o começo da noite se misturarem não faz a distinção entre dia e noite inútil ou inútil.
Nick Cox
12

Versão TL; DR:

  • A interpolação ocorre entre os pontos de dados existentes.
  • Polação extra ocorre além deles.

Mnemônico: em terpolação => no lado.

FWIW: O prefixo entre médias e extra médias além . Pense também em inter- rodovias estaduais que vão entre estados, ou extras terrestres de fora do nosso planeta.

AC
fonte
1

Exemplo:

Estudo: Deseja ajustar uma regressão linear simples na altura da idade para meninas de 6 a 15 anos de idade. O tamanho da amostra é 100, a idade é calculada por (data da medição - data de nascimento) /365.25.

Após a coleta de dados, o modelo é adequado e obtém a estimativa da interceptação b0 e da inclinação b1. significa que temos E (altura | idade) = b0 + b1 * idade.

Quando você deseja a altura média para 13 anos, descobre que não há uma menina de 13 anos em sua amostra de 100 meninas, uma delas com 12,83 anos e outra com 13,24.

Agora você insere idade = 13 na fórmula E (altura | idade) = b0 + b1 * idade. É chamado de interpolação porque os 13 anos de idade são cobertos pelo intervalo de dados usado para ajustar o modelo.

Se você deseja obter uma altura média para os 30 anos de idade e usar essa fórmula, isso é chamado de extrapolação, porque os 30 anos estão fora da faixa da idade coberta por seus dados.

Se o modelo tiver várias covariáveis, você precisa ter cuidado, pois é difícil traçar a borda que os dados cobrem.

Nas estatísticas, não defendemos a extrapolação.

user158565
fonte
"Nas estatísticas, não defendemos a extrapolação." Uma grande fração da análise de séries temporais faz exatamente isso ...
Nick Cox