Sou formado em administração e economia e atualmente estuda mestrado em engenharia de dados. Enquanto estudava regressão linear (LR) e análise de séries temporais (TS), uma pergunta surgiu em minha mente. Por que criar um método totalmente novo, isto é, séries temporais (ARIMA), em vez de usar regressão linear múltipla e adicionar variáveis atrasadas (com a ordem dos atrasos determinada usando ACF e PACF)? Então, o professor sugeriu que eu escrevesse um pequeno ensaio sobre o assunto. Como não procurava ajuda de mãos vazias, fiz minha pesquisa sobre o assunto.
Eu já sabia que, ao usar LR, se as suposições de Gauss-Markov forem violadas, a regressão OLS está incorreta e isso acontece ao usar dados de séries temporais (autocorrelação, etc.). (outra questão sobre isso, uma suposição do GM é que as variáveis independentes devem ser normalmente distribuídas? ou apenas a variável dependente condicional às independentes?)
Também sei que, ao usar uma regressão de retardo distribuído, que é o que acho que estou propondo aqui, e usar o OLS para estimar parâmetros, a multicolinearidade entre variáveis pode (obviamente) surgir, portanto as estimativas estariam erradas.
Em um post semelhante sobre TS e LR aqui, @IrishStat disse:
... um modelo de regressão é um caso particular de um modelo de função de transferência também conhecido como modelo de regressão dinâmica ou modelo XARMAX. O ponto de destaque é que a identificação do modelo em séries temporais, ou seja, as diferenças apropriadas, as defasagens apropriadas dos X's, a estrutura ARIMA apropriada, a identificação apropriada de estruturas determinísticas não especificadas, como pulsos, turnos de nível, tendências da hora local, pulsos sazonais e incorporação mudanças nos parâmetros ou variação de erro devem ser consideradas.
(Também li seu artigo na Autobox sobre Box Jenkins vs LR.) Mas isso ainda não resolve minha pergunta (ou pelo menos não esclarece as diferentes mecânicas de RL e TS para mim).
É óbvio que, mesmo com variáveis atrasadas, surgem problemas de OLS e isso não é eficiente nem correto, mas ao usar a máxima probabilidade, esses problemas persistem? Eu li que o ARIMA é estimado através da máxima probabilidade, portanto, se o LR com defasagens for estimado com ML em vez de OLS, ele produzirá os coeficientes "corretos" (vamos supor que incluamos termos de erro defasados também, como um MA de ordem q)
Em suma, o problema é OLS? O problema foi resolvido com a aplicação do ML?
Respostas:
Um ponto imediato é que uma regressão linear funciona apenas com variáveis observadas enquanto o ARIMA incorpora variáveis não observadas na parte da média móvel; assim, o ARIMA é mais flexível, ou mais geral, de certa forma. O modelo AR pode ser visto como um modelo de regressão linear e seus coeficientes podem ser estimados usando OLS; Β S G S = ( X ' x ) - 1 X ' yβ^O L S=(X′X)- 1X′y onde consiste de desfasamentos da variável dependente que são observados . Enquanto isso, os modelos MA ou ARMA não se encaixam na estrutura OLS, pois algumas das variáveis, a saber, os termos de erro em atraso, não são observadasX e, portanto, o estimador OLS é inviável.
Às vezes, a suposição de normalidade é invocada para erros de modelo, não para variáveis independentes. No entanto, a normalidade não é necessária para a consistência e eficiência do estimador OLS, nem para o teorema de Gauss-Markov. O artigo da Wikipedia sobre o teorema de Gauss-Markov afirma explicitamente que "os erros não precisam ser normais".
Um alto grau de multicolinearidade significa variação inflada do estimador OLS. No entanto, o estimador OLS ainda é AZUL, desde que a multicolinearidade não seja perfeita. Portanto, sua declaração não parece correta.
Um modelo de RA pode ser estimado usando OLS e ML; ambos os métodos fornecem estimadores consistentes. Os modelos MA e ARMA não podem ser estimados pelo OLS; portanto, ML é a principal escolha; novamente, é consistente. A outra propriedade interessante é a eficiência, e aqui não tenho certeza absoluta (mas claramente as informações devem estar disponíveis em algum lugar, pois a pergunta é bastante padrão). Eu tentaria comentar sobre "correção", mas não sei ao certo o que você quer dizer com isso.
fonte
Essa é uma ótima pergunta. A diferença real entre os modelos ARIMA e a regressão linear múltipla está na sua estrutura de erros. Você pode manipular as variáveis independentes em um modelo de regressão linear múltipla para que elas se ajustem aos dados da série temporal, que é o que @IrishStat está dizendo. No entanto, depois disso, você precisará incorporar erros ARIMA em seu modelo de regressão múltipla para obter o coeficiente correto e os resultados do teste. Um ótimo livro gratuito sobre isso é: https://www.otexts.org/fpp/9/1 . Vinculei a seção que discute a combinação do ARIMA e de vários modelos de regressão.
fonte
Boa pergunta, na verdade, eu criei tanto no meu trabalho como cientista de dados. Os modelos de séries temporais são fáceis de criar (o pacote de previsão em R permite criar um em menos de 5 segundos), o mesmo ou mais preciso que os modelos de regressão, etc. Geralmente, sempre se deve criar séries temporais e depois regressar. Também existem implicações filosóficas das séries temporais; se você pode prever sem saber nada, o que isso significa?
Minha opinião sobre Darlington. 1) "A regressão é muito mais flexível e poderosa, produzindo melhores modelos. Esse ponto é desenvolvido em vários pontos ao longo do trabalho".
Não, pelo contrário. Modelos de regressão fazem muito mais suposições do que modelos de séries temporais. Quanto menos suposições, maior a probabilidade de resistir ao terremoto (mudança de regime). Além disso, os modelos de séries temporais respondem mais rapidamente a mudanças repentinas.
2) "A regressão é muito mais fácil de dominar do que o ARIMA, pelo menos para aqueles que já estão familiarizados com o uso da regressão em outras áreas". Esse é um raciocínio circular.
3) "A regressão usa um algoritmo computacional" fechado ", que é essencialmente garantido para gerar resultados, se possível, enquanto o ARIMA e muitos outros métodos usam algoritmos iterativos que geralmente não conseguem chegar a uma solução. Eu sempre vi o método ARIMA" desligar "em dados que não deram problema ao método de regressão."
A regressão fornece uma resposta, mas é a resposta certa? Se eu construo modelos de regressão linear e aprendizado de máquina e todos eles chegam à mesma conclusão, o que isso significa?
Portanto, em resumo, a regressão sim e as séries temporais podem responder à mesma pergunta e, tecnicamente, as séries temporais são tecnicamente regressivas (embora com auto-regressão). Os modelos de séries temporais são menos complexos e, portanto, mais robustos que os modelos de regressão. Se você pensa em especialização, os modelos TS são especializados em previsão, enquanto a regressão é especializada em entendimento. Tudo se resume a se você deseja explicar ou prever.
fonte
Pensando que a diferença mais profunda entre funções de transferência e regressão linear multiponto (em seu uso usual) reside em seus objetivos, várias regressões são orientadas para encontrar os principais determinantes observáveis causais da variável dependente, enquanto as funções de transferência apenas desejam prever o efeito em um dependente. variável da variação de uma variável exógena específica ... Em resumo, a regressão múltipla é orientada para explicações exaustivas e transfere a função para prever efeitos muito específicos ...
fonte