Usando o Regression para projetar fora do intervalo de dados, ok? nunca está bem? as vezes ok?

9

O que você pensa sobre o uso da regressão para projetar fora do intervalo de dados? Se temos certeza de que segue uma forma linear ou de modelo de potência, o modelo não poderia ser útil além do intervalo de dados? Por exemplo, tenho um volume impulsionado pelo preço. Deveríamos poder projetar preços fora do intervalo de dados que acredito. Seus pensamentos?

VOL     PRICE
3044    4.97
2549    4.97
3131    4.98
2708    4.98
2860    4.98
2907    4.98
3107    4.98
3194    4.98
2753    4.98
3228    4.98
3019    4.98
3077    4.99
2597    4.99
2706    4.99
3000    4.99
3022    4.99
3084    4.99
3973    4.99
3675    4.99
3065    4.99
3407    4.99
2359    4.99
2802    4.99
2589    4.99
2476    4.99
2387    5
3265    5
2039    5.14
1842    5.15
2660    5.37
1796    5.46
1734    5.46
1881    5.46
2204    5.58
1477    5.77
1620    5.84
1909    5.87
1744    5.87
1247    5.87
1848    5.88
1641    5.88
1758    5.88
1718    5.88
1656    5.88
1822    5.88
1556    5.89
1643    5.9
1850    5.91
1901    5.91
1837    5.91
1773    5.92
1729    5.92
Johnson Jason
fonte
11
Depende de quão bem suas suposições estão fora do intervalo de dados. Prevendo é para não observada x 's é toda a razão de fazer regressão em primeiro lugar. yx
Ben
3
Mesmo quando você tem certeza absoluta de que a relação linear continua além do intervalo dos preditores em sua amostra de n observações, há um termo na variação da resposta prevista para uma nova observação x - viz ( x - ˉ x ) 2x1,,xnnx(xx¯)2in(xix¯)2
Bem, eu tendem a concordar, não está prevendo y's para Xs não observados? Senão, por que fazer uma regressão? Talvez definir um limite de quão longe eu me permito me afastar do intervalo de dados observado possa ser responsável. Certamente 10% seria seguro .. não?
Johnson Jason
Meu critério favorito sobre este tópico é bmj.com/content/317/7155/409 .
Carlo Lazzaro
@ Ben, Johnson - Talvez uma queixa. Há outro uso para regressão. Pode ser usado para explicar ao invés de prever. Eu acho que, particularmente nas ciências sociais, esse é um dos principais usos da regressão. Eu li muitos argumentos como Pensamos que (variáveis) Um resultado de efeito B, executamos uma regressão, descobrimos que o intervalo de confiança de 95% do (s) coeficiente (s) de A não contém 0 e concluímos que existe um relacionamento da forma A causa B. Aliás, isso não é algo que eu faço!
meh

Respostas:

13

X

H=X(XTX)1X

H0<Hii<1, i=1,,nHii

Hnew,new=xnewT(XTX)1xnew

Hnew,new

Não sei ao certo qual software você está usando, mas quase todos retornarão a matriz do chapéu com o comando certo. Então, sugiro que você dê uma olhada antes de se decidir.

JohnK
fonte
Bem feito JohnK, isso é muito útil. Para sua informação, estou usando a regressão do Excel.
Johnson Jason
9

O erro de previsão aumenta quadraticamente com a distância da média. A equação de regressão e os resultados permitem avaliar o tamanho do erro no intervalo de dados observado, e o modelo é adequado apenas no mesmo intervalo.

Fora desse intervalo, muitas coisas podem acontecer. Primeiro, a previsão fica cada vez pior devido ao aumento do erro de previsão.

Segundo, o modelo pode quebrar completamente. A maneira mais fácil de ver isso é tentar projetar um modelo que relacione o preço com o tempo: você não pode fazer previsões para o tempo negativo.

Terceiro, o relacionamento linear pode ser inadequado. No seu exemplo, quase certamente há economias de escala, que se tornariam muito visíveis se você tentar prever muito além da faixa de valores observados.

Um exemplo bem-humorado desse mesmo efeito aparece em uma das obras de Mark Twain , onde ele tenta modelar a extensão do rio Mississippi ao longo do tempo - estava bastante vento e diminuiu a cada ano devido à erosão de algumas das curvas, bem como dos atalhos feitos pelo homem - e "prediz" que em tantos anos a distância entre Cairo, Illinois e Nova Orleans terá diminuído para cerca de uma milha e três quartos).

Por fim, observe que o intervalo de valores observados pode ser bastante complicado se você tiver mais de uma variável preditora. (Devido às correlações entre os preditores, muitas vezes você não pode simplesmente pegar a caixa definida pelos máximos e mínimos em cada preditor.)

user3697176
fonte
11
(+1) Embora dizer que o modelo é adequado apenas no intervalo dos dados observados, é um pouco forte - os problemas que você descreve tornam-se cada vez mais preocupantes quanto mais longe você fica dele.
Scortchi - Reinstate Monica
Portanto, existe algum trabalho em torno de qual a distância segura para se afastar do intervalo de dados observado? Menos de 1 desvio padrão, certo?
Johnson Jason
11
@Scortchi. Ponto tomado. Na maioria das situações, a degradação do modelo é gradual. No entanto, ocasionalmente, são limites rígidos, e tentando ir além daquelas vai causar dor.
user3697176
11
@JohnsonJason: Não faz sentido procurar uma regra de ouro. Você pode calcular facilmente os intervalos de previsão, supondo que seu modelo possa ser extrapolado; o grau em que você pode confiar na extrapolação depende do conhecimento do assunto: o que é aceitável varia de caso para caso.
Scortchi - Restabelecer Monica
11
Excelentes pontos (+1). Mas não há problema lógico em prever o preço em tempo negativo. O verdadeiro problema é se você prever um preço negativo por um determinado período de tempo (geralmente no passado, na prática). Frequentemente, isso significa que o modelo está qualitativamente errado, tanto quanto a extrapolação está esticando uma linha (ou curva) muito longe. Uma função de link logarítmico, por exemplo, sempre implica previsões positivas.
Nick Cox
4

Você não pode tomar decisões orientadas a dados para áreas onde você não possui dados. Fim da história. Os dados podem muito bem suportar uma forma linear para o intervalo no qual seus dados são coletados, mas você não tem motivos orientados a dados para acreditar que essa forma continua linear no seu intervalo. Pode ter qualquer forma sob o sol!

Você pode assumir que a forma linear continua fora do seu intervalo de dados, mas essa é uma suposição subjetiva que não é suportada pelos dados coletados. Eu sugeriria consultar um especialista no assunto para ver, com base no conhecimento deles, quão segura é essa suposição.

TrynnaDoStat
fonte
2
Então, qual é realmente o objetivo de fazer regressão, se não podemos prever Y's para Xs não observados?
Johnson Jason
2
Eu acho que o ponto é que você ainda pode prever dentro do intervalo, não é aconselhável prever fora do intervalo. Presumivelmente, a maioria dos novos pontos de dados estaria dentro do alcance, de modo que o modelo permaneceria útil a grande maioria do tempo
Ryan Zotti