O que há de errado com a extrapolação?

68

Lembro-me de participar de cursos de estatística como uma audiência de graduação sobre por que a extrapolação era uma má idéia. Além disso, há uma variedade de fontes online que comentam sobre isso. Há também uma menção a isso aqui .

Alguém pode me ajudar a entender por que a extrapolação é uma má idéia? Se for, como as técnicas de previsão não são estatisticamente inválidas?

UM CARA
fonte
3
@ Firebug Mark Twain tinha algo a dizer sobre isso. A passagem relevante é citada no final da minha resposta em stats.stackexchange.com/a/24649/919 .
whuber
11
@ Whuber Acho que isso não é exatamente extrapolação pensando nisso agora. Digamos, treinamos e validamos adequadamente um algoritmo para prever dados uma semana no recurso. Fazendo a reamostragem correta (e ajustando, se houver hiperparâmetros a serem ajustados), então não consigo ver o que há de errado, se você tem uma resposta e também deve saber a confiança dessa resposta. Agora, se você treinar seu algoritmo semanalmente, não poderá prever com precisão um ano no futuro. Desculpe pela possível confusão.
Firebug
7
@Firebug Não é necessário pedir desculpas - suas observações contêm informações úteis para esclarecimento. Enquanto os leio, eles sugerem que "extrapolar" pode ter várias interpretações em uma configuração de previsão. Uma é que envolve uma "extrapolação" do tempo. Mas quando você olha para modelos de séries temporais padrão, especialmente aqueles em que o tempo não é uma covariável explícita, eles prevêem valores futuros em termos de valores anteriores . Quando esses valores anteriores permanecem dentro dos limites dos valores anteriores, o modelo não realiza extrapolação! Aí pode estar uma resolução do aparente paradoxo.
whuber
7
Você pode
usar o seguinte
2
Estou decepcionado com o tempo que levou para o xkcd obrigatória a aparecer
Duncan X Simpson

Respostas:

89

Um modelo de regressão é frequentemente usado para extrapolação, ou seja, prever a resposta a uma entrada que está fora do intervalo dos valores da variável preditora usada para ajustar o modelo. O perigo associado à extrapolação é ilustrado na figura a seguir. gráfico mostrando a linha extrapolada continuando para cima onde o valor "verdadeiro" diminui

O modelo de regressão é “por construção” um modelo de interpolação e não deve ser usado para extrapolação, a menos que isso seja devidamente justificado.

Kostia
fonte
11
Este é um exemplo terrível contra a extrapolação. A linha de regressão reta ajusta os pontos de dados muito melhor do que sua função verdadeira curvilínea.
horaceT
9
"A linha de regressão reta ajusta os pontos de dados muito melhor que a função verdadeira e curvilínea" Esta afirmação é falsa. O RSS para a função de regressão verdade é menor do RSS para a linha de regressão simples,
Kostia
Ponto tomado e você pode (deve) estar certo. Mas, a julgar pelo lote de pontos, não há como alguém inferir a verdadeira função.
horaceT
27
Exatamente. E é por isso que extrapolação pode ser uma má ideia.
Kostia
"O modelo de regressão é‘de construção’um modelo de interpolação" -> Eu acho que pode ter exatamente o mesmo problema com interpolação (mesmo que seja menos provável de acontecer)
Metariat
88

Este quadrinho do xkcd explica tudo.

xkcd comic

Usando os dados que Cueball (o homem do bastão) tem, ele extrapolou que a mulher terá "quatro dúzias" de maridos até o final do próximo mês e usou essa extrapolação para levar à conclusão de comprar o bolo de casamento a granel.

Edit 3: Para aqueles que dizem "ele não tem pontos de dados suficientes", aqui está outra história em quadrinhos do xkcd :

xkcd comic

Aqui, o uso da palavra "sustentável" ao longo do tempo é mostrado em um gráfico de semi-registro e, extrapolando os pontos de dados, recebemos estimativas não razoáveis ​​de quantas vezes a palavra "sustentável" ocorrerá no futuro.

Edit 2: Para aqueles que dizem "você também precisa de todos os pontos de dados anteriores", mais uma história em quadrinhos do xkcd: xkcd comic

Aqui, temos todos os pontos de dados anteriores, mas não conseguimos prever com precisão a resolução do Google Earth. Observe que este também é um gráfico de semi-log.

Edit: Às vezes, até as correlações mais fortes (r = .9979, neste caso) estão completamente erradas.


Se você extrapolar sem outras evidências de suporte, também violar a correlação não implica causalidade ; outro grande pecado no mundo das estatísticas.

Se você extrapolar X com Y, no entanto, certifique-se de prever com precisão (o suficiente para satisfazer seus requisitos) prever X com apenas Y. Quase sempre, há vários fatores que afetam X.

Gostaria de compartilhar um link para outra resposta que o explique nas palavras de Nassim Nicholas Taleb.

noɥʇʎԀʎzɐɹƆ
fonte
14
O xkcd tem uma piada sobre todos os possíveis problemas de matemática / estatística que se pode encontrar, não é?
Ander Biguri
24
Essa idéia também pode ser usada como argumento contra a interpolação: "ontem à noite você teve 0,5 maridos".
Jik
3
@JiK Se tudo o que sei é que ela tem um agora, e dois dias atrás, ela não tinha nenhum, isso não é uma estimativa ruim ;-)
Dennis Jaheruddin
9
Sustentável sustentável Sustentável sustentável sustentável sustentável Sustentável sustentável. en.wikipedia.org/wiki/…
Meni Rosenfeld
11
mais xkcd, pessoal!
noɥʇʎԀʎzɐɹƆ
24

"A previsão é muito difícil, principalmente se for para o futuro". A citação é atribuída a muitas pessoas de alguma forma . Restrico na "extrapolação" a seguir a "previsão fora do intervalo conhecido" e, em um cenário unidimensional, a extrapolação de um passado conhecido para um futuro desconhecido.

Então, o que há de errado com a extrapolação? Primeiro, não é fácil modelar o passado . Segundo, é difícil saber se um modelo do passado pode ser usado para o futuro . Por trás de ambas as afirmações, há questões profundas sobre causalidade ou ergodicidade, suficiência de variáveis ​​explicativas etc. que dependem bastante do caso. O que está errado é que é difícil escolher um único esquema de extrapolação que funcione bem em diferentes contextos, sem muita informação extra.

x

Quarteto de Anscombe

No entanto, a previsão pode ser retificada até certo ponto. Adicionando outras respostas, alguns ingredientes podem ajudar na extrapolação prática:

  1. npfp(n)pn
  2. Você pode usar vários modelos de extrapolação e combiná-los ou selecionar os melhores ( Combining forecasts , J. Scott Armstrong, 2001). Recentemente, houve vários trabalhos sobre sua combinação ideal (posso fornecer referências, se necessário).

Recentemente, participei de um projeto para extrapolar valores para a comunicação de subsistemas de simulação em um ambiente de tempo real. O dogma nesse domínio era que a extrapolação pode causar instabilidade. Na verdade, percebemos que combinar os dois ingredientes acima era muito eficiente, sem instabilidade perceptível (sem uma prova formal ainda e atualmente em revisão ). E a extrapolação trabalhou com polinômios simples, com uma carga computacional muito baixa, a maioria das operações sendo computadas previamente e armazenadas em tabelas de consulta.

Finalmente, como a extrapolação sugere um desenho engraçado, o seguinte é o efeito inverso da regressão linear:

Diversão com amor e regressão linear

Laurent Duval
fonte
+1 boa resposta. Segundo este site , parece improvável que Bohr tenha dito isso. Parece mais provável que seja um provérbio dinamarquês incomum, mas genérico.
usεr11852 diz Reinstate Monic
@ usεr11852 Improvável que ele "tenha dito isso"? Por isso eu disse "atribuído", devo ser mais cauteloso?
Laurent Duval
2
Eu nunca disse a parte sempre . Fiz esse comentário porque, dado que o ditado parece muito mais provável de ser um provérbio dinamarquês, atribuí-lo a um Dane em particular (extremamente emblemático) parece um pouco exagerado - especialmente porque não há registros de Bohr dizendo isso. O autor original pode ser um pescador sem nome comentando as capturas de amanhã! Estou torcendo para o carinha aqui! : D
usεr11852 diz Reintegrar Monic
2
Também é muito difícil modelar legendas de cotações anteriores.
Laurent Duval
3
Certamente a pergunta usa as duas palavras: o ponto principal é se "previsão" deve ser considerada uma forma de "extrapolação". De acordo com seus comentários introdutórios, você parece definir extrapolação como usar o passado para "modelar o futuro". Até você oferecer definições claras e distintas de cada uma, sua resposta poderá ser mal compreendida.
whuber
17

Embora o ajuste de um modelo possa ser " bom ", a extrapolação além do intervalo dos dados deve ser tratada com ceticismo. O motivo é que, em muitos casos, a extrapolação (infelizmente e inevitavelmente) depende de suposições não testáveis ​​sobre o comportamento dos dados além do suporte observado.

xout

Uma ressalva adicional é que muitas técnicas de estimativa não paramétrica não permitem extrapolação nativamente. Esse problema é particularmente perceptível no caso de suavização de spline, onde não há mais nós para ancorar a spline ajustada.

Deixe-me enfatizar que a extrapolação está longe de ser má. Por exemplo, métodos numéricos amplamente usados ​​em Estatística (por exemplo, o processo delta-quadrado de Aitken e Extrapolação de Richardson ) são essencialmente esquemas de extrapolação baseados na ideia de que o comportamento subjacente da função analisada para os dados observados permanece estável em todo o suporte da função.

usεr11852 diz Reinstate Monic
fonte
εΔ2
15

Ao contrário de outras respostas, eu diria que não há nada errado com a extrapolação, na medida em que não é usada de maneira irracional. Primeiro, observe que a extrapolação é :

o processo de estimar, além do intervalo de observação original, o valor de uma variável com base em sua relação com outra variável.

... portanto, é um termo muito amplo e muitos métodos diferentes, variando de extrapolação linear simples , regressão linear, regressão polinomial ou mesmo alguns métodos avançados de previsão de séries temporais, se encaixam nessa definição. De fato, extrapolação, previsão e previsão estão intimamente relacionadas. Nas estatísticas, costumamos fazer previsões e previsões . É também o que o link a que você se refere diz:

Somos ensinados desde o primeiro dia das estatísticas que a extrapolação é um grande não-não, mas é exatamente isso que é a previsão.

Muitos métodos de extrapolação são usados para fazer previsões; além disso, muitas vezes alguns métodos simples funcionam muito bem com amostras pequenas, portanto podem ser preferidos aos complicados. O problema é, como observado em outras respostas, quando você usa o método de extrapolação incorretamente.

Por exemplo, muitos estudos mostram que a idade de iniciação sexual diminui com o tempo nos países ocidentais. Dê uma olhada em um gráfico abaixo sobre a idade da primeira relação sexual nos EUA. Se usássemos cegamente a regressão linear para prever a idade da primeira relação sexual, preveríamos que ela fosse abaixo de zero em alguns anos (de acordo com o primeiro casamento e o primeiro nascimento ocorrendo algum tempo após a morte) ... No entanto, se você precisar previsão de um ano antes, acho que a regressão linear levaria a previsões de curto prazo bastante precisas para a tendência.

insira a descrição da imagem aqui

(fonte guttmacher.org )

Todos os modelos estão errados , a extrapolação também está errada, pois não permitiria que você fizesse previsões precisas. Como outras ferramentas matemáticas / estatísticas, permitirá fazer previsões aproximadas . A extensão da precisão deles depende da qualidade dos dados que você possui, usando métodos adequados para o seu problema, das suposições feitas ao definir seu modelo e de muitos outros fatores. Mas isso não significa que não podemos usar esses métodos. Podemos, mas precisamos lembrar sobre suas limitações e devemos avaliar sua qualidade para um determinado problema.

Tim
fonte
4
Quando os dados usados ​​para a regressão terminam no início dos anos 80, você provavelmente pode testar facilmente quanto tempo depois dessa extrapolação funcionaria.
gerrit
@gerrit Eu concordo, mas infelizmente não consegui encontrar os dados apropriados. Mas se alguém pudesse me indicar, ficaria feliz em atualizar minha resposta para essa comparação.
Tim
Nesse caso, a extrapolação falha, uma vez que a idade do primeiro sexo saltou nos últimos anos. (Mas de dados para esta sempre fica para ano de nascimento por um par de décadas, por razões que devem ser óbvias.)
David Manheim
13

Gosto bastante do exemplo de Nassim Taleb (que foi uma adaptação de um exemplo anterior de Bertrand Russell):

Considere um peru que é alimentado todos os dias. Toda alimentação reforça a crença do pássaro de que é regra geral da vida ser alimentada todos os dias por membros amigáveis ​​da raça humana "cuidando de seus melhores interesses", como diria um político. Na tarde da quarta-feira antes do Dia de Ação de Graças, algo inesperado acontecerá com a Turquia. Incorrerá em uma revisão de crença.

Alguns análogos matemáticos são os seguintes:

  • O conhecimento dos primeiros coeficientes de Taylor de uma função nem sempre garante que os coeficientes subsequentes sigam o seu padrão presumido.

  • o conhecimento das condições iniciais de uma equação diferencial nem sempre garante o conhecimento de seu comportamento assintótico (por exemplo, as equações de Lorenz, algumas vezes distorcidas no chamado "efeito borboleta")

Aqui está um bom tópico do MO sobre o assunto.

J. M. não é um estatístico
fonte
3
… E, claro, Taleb tem que apontar a lição moral: "não seja um peru"! Nesse contexto: não seja um extrapolador descuidado e não sucumba ao pecado da arrogância.
JM não é estatístico
@ uoɥʇʎPʎzɐɹC, eu não estava pedindo, mas obrigado!
JM não é estatístico
realmente não tem utilidade para reputação validada cruzada - e ninguém viu sua resposta e foi muito bom. Desfrutar!
noɥʇʎԀʎzɐɹƆ
12

Reflita sobre a história a seguir, se quiser.

Também me lembro de ter participado de um curso de estatística, e o professor disse que a extrapolação era uma má idéia. Então, durante a próxima aula, ele nos disse que era uma má idéia novamente; de fato, ele disse duas vezes.

Fiquei doente pelo resto do semestre, mas tinha certeza de que não poderia ter perdido muito material, porque na última semana o cara certamente não estava fazendo nada além de contar às pessoas repetidamente como extrapolação era uma má ideia .

Curiosamente, eu não obtive uma pontuação muito alta no exame.

einpoklum - restabelece Monica
fonte
6
A pergunta pergunta "o que há de errado com a extrapolação?". Estamos procurando respostas que justifiquem a extrapolação.
Robert Long
8
@RobertLong: Na verdade, é uma espécie de resposta meta / piada e bastante semelhante a xkcd.com/605 - ainda talvez seja melhor como comentário do que como resposta.
Neil Slater
@NeilSlater: Você deveria ter postado seu comentário como resposta ... :)
usεr11852 diz Reinstate Monic
@RobertLong: Esse é o tipo de resposta. Simplesmente tem a forma de uma parábola.
einpoklum - reinstala Monica
2
Não está claro que seu modelo é exponencial.
gerrit
6

A questão não é apenas estatística, é também epistemológica. Extrapolação é uma das maneiras pelas quais aprendemos sobre a natureza, é uma forma de indução . Digamos que tenhamos dados de condutividade elétrica de um material em uma faixa de temperaturas de 0 a 20 graus Celsius, o que podemos dizer sobre a condutividade a 40 graus Celsius?

Está intimamente relacionado à inferência de amostras pequenas: o que podemos dizer sobre toda a população a partir de medições realizadas em uma amostra pequena? Isso foi iniciado por Gosset como Guiness , que criou as distribuições t de Student. Antes dele, os estatísticos não se preocupavam em pensar em amostras pequenas, assumindo que o tamanho da amostra sempre pode ser grande. Ele estava em Guinnes e teve que lidar com amostras de cerveja para decidir o que fazer com todo o lote de cerveja a ser enviado.

Portanto, na prática (comercial), engenharia e ciência, sempre precisamos extrapolar de algumas maneiras. Pode ser extrapolar amostras pequenas para amostras grandes, ou de uma gama limitada de condições de entrada a um conjunto mais amplo de condições, do que está acontecendo no acelerador ao que aconteceu com um buraco negro a bilhões de quilômetros de distância etc. É especialmente importante na ciência , como realmente aprendemos estudando as discrepâncias entre nossas estimativas de extrapolação e medições reais. Muitas vezes, encontramos novos fenômenos quando as discrepâncias são grandes ou consistentes.

portanto, digo que não há problema com extrapolação. É algo que temos que fazer todos os dias. É apenas difícil.

Aksakal
fonte
4

A extrapolação em si não é necessariamente má, mas é um processo que se presta a conclusões mais irracionais do que as interpolações.

  • A extrapolação é frequentemente feita para explorar valores bem distantes da região amostrada. Se estou amostrando 100 valores de 0 a 10 e depois extrapolando um pouco, apenas para 11, meu novo ponto provavelmente está 10 vezes mais longe de qualquer ponto de dados do que qualquer interpolação poderia obter. Isso significa que há muito mais espaço para uma variável sair do controle (qualitativamente). Note que eu escolhi intencionalmente apenas uma pequena extrapolação. Pode ficar muito pior
  • A extrapolação deve ser feita com ajustes de curva destinados a extrapolação. Por exemplo, muitos ajustes polinomiais são muito ruins para extrapolação, porque os termos que se comportam bem acima do intervalo amostrado podem explodir quando você o deixa. Uma boa extrapolação depende de um "bom palpite" sobre o que acontece fora da região amostrada. O que me leva a ...
  • Muitas vezes, é extremamente difícil usar extrapolação devido à presença de transições de fase. Muitos processos nos quais se pode extrapolar têm propriedades decididamente não lineares que não são suficientemente expostas sobre a região amostrada. A aeronáutica em torno da velocidade do som é um excelente exemplo. Muitas extrapolações de velocidades mais baixas desmoronam quando você alcança e excede a velocidade da transferência de informações no ar. Isso também ocorre com frequência nas ciências sociais, onde a própria política pode impactar o sucesso da política. A economia keynesiana extrapolou como a economia se comportaria com diferentes níveis de inflação e previu o melhor resultado possível. Infelizmente, houve efeitos de segunda ordem e o resultado não foi a prosperidade econômica, mas algumas das taxas de inflação mais altas que os EUA já viram.
  • Pessoas gostam de extrapolações. De um modo geral, as pessoas realmente querem que alguém espie uma bola de cristal e conte o futuro. Eles aceitarão extrapolações surpreendentemente ruins simplesmente porque são todas as informações que eles têm. Isso pode não tornar a extrapolação ruim por si só, mas é definitivamente algo que se deve levar em consideração ao usá-la.

Para o máximo em extrapolação, considere o Projeto Manhattan. Os físicos de lá foram forçados a trabalhar com testes de escala extremamente pequena antes de construir a coisa real. Eles simplesmente não tinham urânio suficiente para desperdiçar nos testes. Eles fizeram o melhor que podiam e foram espertos. No entanto, quando o teste final ocorreu, foi decidido que cada cientista decidiria a que distância da explosão eles queriam estar quando ela explodisse. Havia diferenças substanciais de opinião quanto à distância "segura", porque todos os cientistas sabiam que estavam extrapolando muito longe de seus testes. Havia até uma consideração não trivial de que eles poderiam incendiar a atmosfera com a bomba nuclear, uma questão também posta de lado com uma extrapolação substancial!

Cort Ammon
fonte
3

Muitas respostas boas aqui, só quero tentar sintetizar o que considero o núcleo da questão: é perigoso extrapolar além do processo de geração de dados que deu origem à amostra de estimativa. Isso às vezes é chamado de 'mudança estrutural'.

A previsão vem com premissas, a principal delas é que o processo de geração de dados é (o mais próximo que não faz diferença significativa) o mesmo que gerou a amostra (exceto as variáveis ​​rhs, cujas alterações são explicitamente explicadas no modelo) . Se ocorrer uma mudança estrutural (por exemplo, Ação de Graças no exemplo de Taleb), todas as apostas serão canceladas.

Jason
fonte