O que você pensa sobre o uso da regressão para projetar fora do intervalo de dados? Se temos certeza de que segue uma forma linear ou de modelo de potência, o modelo não poderia ser útil além do intervalo de dados? Por exemplo, tenho um volume impulsionado pelo preço. Deveríamos poder projetar preços fora do intervalo de dados que acredito. Seus pensamentos?
VOL PRICE
3044 4.97
2549 4.97
3131 4.98
2708 4.98
2860 4.98
2907 4.98
3107 4.98
3194 4.98
2753 4.98
3228 4.98
3019 4.98
3077 4.99
2597 4.99
2706 4.99
3000 4.99
3022 4.99
3084 4.99
3973 4.99
3675 4.99
3065 4.99
3407 4.99
2359 4.99
2802 4.99
2589 4.99
2476 4.99
2387 5
3265 5
2039 5.14
1842 5.15
2660 5.37
1796 5.46
1734 5.46
1881 5.46
2204 5.58
1477 5.77
1620 5.84
1909 5.87
1744 5.87
1247 5.87
1848 5.88
1641 5.88
1758 5.88
1718 5.88
1656 5.88
1822 5.88
1556 5.89
1643 5.9
1850 5.91
1901 5.91
1837 5.91
1773 5.92
1729 5.92
regression
dataset
linear-model
Johnson Jason
fonte
fonte
Respostas:
Não sei ao certo qual software você está usando, mas quase todos retornarão a matriz do chapéu com o comando certo. Então, sugiro que você dê uma olhada antes de se decidir.
fonte
O erro de previsão aumenta quadraticamente com a distância da média. A equação de regressão e os resultados permitem avaliar o tamanho do erro no intervalo de dados observado, e o modelo é adequado apenas no mesmo intervalo.
Fora desse intervalo, muitas coisas podem acontecer. Primeiro, a previsão fica cada vez pior devido ao aumento do erro de previsão.
Segundo, o modelo pode quebrar completamente. A maneira mais fácil de ver isso é tentar projetar um modelo que relacione o preço com o tempo: você não pode fazer previsões para o tempo negativo.
Terceiro, o relacionamento linear pode ser inadequado. No seu exemplo, quase certamente há economias de escala, que se tornariam muito visíveis se você tentar prever muito além da faixa de valores observados.
Um exemplo bem-humorado desse mesmo efeito aparece em uma das obras de Mark Twain , onde ele tenta modelar a extensão do rio Mississippi ao longo do tempo - estava bastante vento e diminuiu a cada ano devido à erosão de algumas das curvas, bem como dos atalhos feitos pelo homem - e "prediz" que em tantos anos a distância entre Cairo, Illinois e Nova Orleans terá diminuído para cerca de uma milha e três quartos).
Por fim, observe que o intervalo de valores observados pode ser bastante complicado se você tiver mais de uma variável preditora. (Devido às correlações entre os preditores, muitas vezes você não pode simplesmente pegar a caixa definida pelos máximos e mínimos em cada preditor.)
fonte
Você não pode tomar decisões orientadas a dados para áreas onde você não possui dados. Fim da história. Os dados podem muito bem suportar uma forma linear para o intervalo no qual seus dados são coletados, mas você não tem motivos orientados a dados para acreditar que essa forma continua linear no seu intervalo. Pode ter qualquer forma sob o sol!
Você pode assumir que a forma linear continua fora do seu intervalo de dados, mas essa é uma suposição subjetiva que não é suportada pelos dados coletados. Eu sugeriria consultar um especialista no assunto para ver, com base no conhecimento deles, quão segura é essa suposição.
fonte