Lembro-me de participar de cursos de estatística como uma audiência de graduação sobre por que a extrapolação era uma má idéia. Além disso, há uma variedade de fontes online que comentam sobre isso. Há também uma menção a isso aqui .
Alguém pode me ajudar a entender por que a extrapolação é uma má idéia? Se for, como as técnicas de previsão não são estatisticamente inválidas?
regression
time-series
forecasting
UM CARA
fonte
fonte
Respostas:
Um modelo de regressão é frequentemente usado para extrapolação, ou seja, prever a resposta a uma entrada que está fora do intervalo dos valores da variável preditora usada para ajustar o modelo. O perigo associado à extrapolação é ilustrado na figura a seguir.
O modelo de regressão é “por construção” um modelo de interpolação e não deve ser usado para extrapolação, a menos que isso seja devidamente justificado.
fonte
Este quadrinho do xkcd explica tudo.
Usando os dados que Cueball (o homem do bastão) tem, ele extrapolou que a mulher terá "quatro dúzias" de maridos até o final do próximo mês e usou essa extrapolação para levar à conclusão de comprar o bolo de casamento a granel.
Edit 3: Para aqueles que dizem "ele não tem pontos de dados suficientes", aqui está outra história em quadrinhos do xkcd :
Aqui, o uso da palavra "sustentável" ao longo do tempo é mostrado em um gráfico de semi-registro e, extrapolando os pontos de dados, recebemos estimativas não razoáveis de quantas vezes a palavra "sustentável" ocorrerá no futuro.
Edit 2: Para aqueles que dizem "você também precisa de todos os pontos de dados anteriores", mais uma história em quadrinhos do xkcd:
Aqui, temos todos os pontos de dados anteriores, mas não conseguimos prever com precisão a resolução do Google Earth. Observe que este também é um gráfico de semi-log.
Edit: Às vezes, até as correlações mais fortes (r = .9979, neste caso) estão completamente erradas.
Se você extrapolar sem outras evidências de suporte, também violar a correlação não implica causalidade ; outro grande pecado no mundo das estatísticas.
Se você extrapolar X com Y, no entanto, certifique-se de prever com precisão (o suficiente para satisfazer seus requisitos) prever X com apenas Y. Quase sempre, há vários fatores que afetam X.
Gostaria de compartilhar um link para outra resposta que o explique nas palavras de Nassim Nicholas Taleb.
fonte
"A previsão é muito difícil, principalmente se for para o futuro". A citação é atribuída a muitas pessoas de alguma forma . Restrico na "extrapolação" a seguir a "previsão fora do intervalo conhecido" e, em um cenário unidimensional, a extrapolação de um passado conhecido para um futuro desconhecido.
Então, o que há de errado com a extrapolação? Primeiro, não é fácil modelar o passado . Segundo, é difícil saber se um modelo do passado pode ser usado para o futuro . Por trás de ambas as afirmações, há questões profundas sobre causalidade ou ergodicidade, suficiência de variáveis explicativas etc. que dependem bastante do caso. O que está errado é que é difícil escolher um único esquema de extrapolação que funcione bem em diferentes contextos, sem muita informação extra.
No entanto, a previsão pode ser retificada até certo ponto. Adicionando outras respostas, alguns ingredientes podem ajudar na extrapolação prática:
Recentemente, participei de um projeto para extrapolar valores para a comunicação de subsistemas de simulação em um ambiente de tempo real. O dogma nesse domínio era que a extrapolação pode causar instabilidade. Na verdade, percebemos que combinar os dois ingredientes acima era muito eficiente, sem instabilidade perceptível (sem uma prova formal ainda e atualmente em revisão ). E a extrapolação trabalhou com polinômios simples, com uma carga computacional muito baixa, a maioria das operações sendo computadas previamente e armazenadas em tabelas de consulta.
Finalmente, como a extrapolação sugere um desenho engraçado, o seguinte é o efeito inverso da regressão linear:
fonte
Embora o ajuste de um modelo possa ser " bom ", a extrapolação além do intervalo dos dados deve ser tratada com ceticismo. O motivo é que, em muitos casos, a extrapolação (infelizmente e inevitavelmente) depende de suposições não testáveis sobre o comportamento dos dados além do suporte observado.
Uma ressalva adicional é que muitas técnicas de estimativa não paramétrica não permitem extrapolação nativamente. Esse problema é particularmente perceptível no caso de suavização de spline, onde não há mais nós para ancorar a spline ajustada.
Deixe-me enfatizar que a extrapolação está longe de ser má. Por exemplo, métodos numéricos amplamente usados em Estatística (por exemplo, o processo delta-quadrado de Aitken e Extrapolação de Richardson ) são essencialmente esquemas de extrapolação baseados na ideia de que o comportamento subjacente da função analisada para os dados observados permanece estável em todo o suporte da função.
fonte
Ao contrário de outras respostas, eu diria que não há nada errado com a extrapolação, na medida em que não é usada de maneira irracional. Primeiro, observe que a extrapolação é :
... portanto, é um termo muito amplo e muitos métodos diferentes, variando de extrapolação linear simples , regressão linear, regressão polinomial ou mesmo alguns métodos avançados de previsão de séries temporais, se encaixam nessa definição. De fato, extrapolação, previsão e previsão estão intimamente relacionadas. Nas estatísticas, costumamos fazer previsões e previsões . É também o que o link a que você se refere diz:
Muitos métodos de extrapolação são usados para fazer previsões; além disso, muitas vezes alguns métodos simples funcionam muito bem com amostras pequenas, portanto podem ser preferidos aos complicados. O problema é, como observado em outras respostas, quando você usa o método de extrapolação incorretamente.
Por exemplo, muitos estudos mostram que a idade de iniciação sexual diminui com o tempo nos países ocidentais. Dê uma olhada em um gráfico abaixo sobre a idade da primeira relação sexual nos EUA. Se usássemos cegamente a regressão linear para prever a idade da primeira relação sexual, preveríamos que ela fosse abaixo de zero em alguns anos (de acordo com o primeiro casamento e o primeiro nascimento ocorrendo algum tempo após a morte) ... No entanto, se você precisar previsão de um ano antes, acho que a regressão linear levaria a previsões de curto prazo bastante precisas para a tendência.
(fonte guttmacher.org )
Todos os modelos estão errados , a extrapolação também está errada, pois não permitiria que você fizesse previsões precisas. Como outras ferramentas matemáticas / estatísticas, permitirá fazer previsões aproximadas . A extensão da precisão deles depende da qualidade dos dados que você possui, usando métodos adequados para o seu problema, das suposições feitas ao definir seu modelo e de muitos outros fatores. Mas isso não significa que não podemos usar esses métodos. Podemos, mas precisamos lembrar sobre suas limitações e devemos avaliar sua qualidade para um determinado problema.
fonte
Gosto bastante do exemplo de Nassim Taleb (que foi uma adaptação de um exemplo anterior de Bertrand Russell):
Alguns análogos matemáticos são os seguintes:
O conhecimento dos primeiros coeficientes de Taylor de uma função nem sempre garante que os coeficientes subsequentes sigam o seu padrão presumido.
o conhecimento das condições iniciais de uma equação diferencial nem sempre garante o conhecimento de seu comportamento assintótico (por exemplo, as equações de Lorenz, algumas vezes distorcidas no chamado "efeito borboleta")
Aqui está um bom tópico do MO sobre o assunto.
fonte
Reflita sobre a história a seguir, se quiser.
Também me lembro de ter participado de um curso de estatística, e o professor disse que a extrapolação era uma má idéia. Então, durante a próxima aula, ele nos disse que era uma má idéia novamente; de fato, ele disse duas vezes.
Fiquei doente pelo resto do semestre, mas tinha certeza de que não poderia ter perdido muito material, porque na última semana o cara certamente não estava fazendo nada além de contar às pessoas repetidamente como extrapolação era uma má ideia .
Curiosamente, eu não obtive uma pontuação muito alta no exame.
fonte
A questão não é apenas estatística, é também epistemológica. Extrapolação é uma das maneiras pelas quais aprendemos sobre a natureza, é uma forma de indução . Digamos que tenhamos dados de condutividade elétrica de um material em uma faixa de temperaturas de 0 a 20 graus Celsius, o que podemos dizer sobre a condutividade a 40 graus Celsius?
Está intimamente relacionado à inferência de amostras pequenas: o que podemos dizer sobre toda a população a partir de medições realizadas em uma amostra pequena? Isso foi iniciado por Gosset como Guiness , que criou as distribuições t de Student. Antes dele, os estatísticos não se preocupavam em pensar em amostras pequenas, assumindo que o tamanho da amostra sempre pode ser grande. Ele estava em Guinnes e teve que lidar com amostras de cerveja para decidir o que fazer com todo o lote de cerveja a ser enviado.
Portanto, na prática (comercial), engenharia e ciência, sempre precisamos extrapolar de algumas maneiras. Pode ser extrapolar amostras pequenas para amostras grandes, ou de uma gama limitada de condições de entrada a um conjunto mais amplo de condições, do que está acontecendo no acelerador ao que aconteceu com um buraco negro a bilhões de quilômetros de distância etc. É especialmente importante na ciência , como realmente aprendemos estudando as discrepâncias entre nossas estimativas de extrapolação e medições reais. Muitas vezes, encontramos novos fenômenos quando as discrepâncias são grandes ou consistentes.
portanto, digo que não há problema com extrapolação. É algo que temos que fazer todos os dias. É apenas difícil.
fonte
A extrapolação em si não é necessariamente má, mas é um processo que se presta a conclusões mais irracionais do que as interpolações.
Para o máximo em extrapolação, considere o Projeto Manhattan. Os físicos de lá foram forçados a trabalhar com testes de escala extremamente pequena antes de construir a coisa real. Eles simplesmente não tinham urânio suficiente para desperdiçar nos testes. Eles fizeram o melhor que podiam e foram espertos. No entanto, quando o teste final ocorreu, foi decidido que cada cientista decidiria a que distância da explosão eles queriam estar quando ela explodisse. Havia diferenças substanciais de opinião quanto à distância "segura", porque todos os cientistas sabiam que estavam extrapolando muito longe de seus testes. Havia até uma consideração não trivial de que eles poderiam incendiar a atmosfera com a bomba nuclear, uma questão também posta de lado com uma extrapolação substancial!
fonte
Muitas respostas boas aqui, só quero tentar sintetizar o que considero o núcleo da questão: é perigoso extrapolar além do processo de geração de dados que deu origem à amostra de estimativa. Isso às vezes é chamado de 'mudança estrutural'.
A previsão vem com premissas, a principal delas é que o processo de geração de dados é (o mais próximo que não faz diferença significativa) o mesmo que gerou a amostra (exceto as variáveis rhs, cujas alterações são explicitamente explicadas no modelo) . Se ocorrer uma mudança estrutural (por exemplo, Ação de Graças no exemplo de Taleb), todas as apostas serão canceladas.
fonte