Qual é / é a diferença "mecânica" entre regressão linear múltipla com atrasos e séries temporais?

14

Sou formado em administração e economia e atualmente estuda mestrado em engenharia de dados. Enquanto estudava regressão linear (LR) e análise de séries temporais (TS), uma pergunta surgiu em minha mente. Por que criar um método totalmente novo, isto é, séries temporais (ARIMA), em vez de usar regressão linear múltipla e adicionar variáveis ​​atrasadas (com a ordem dos atrasos determinada usando ACF e PACF)? Então, o professor sugeriu que eu escrevesse um pequeno ensaio sobre o assunto. Como não procurava ajuda de mãos vazias, fiz minha pesquisa sobre o assunto.

Eu já sabia que, ao usar LR, se as suposições de Gauss-Markov forem violadas, a regressão OLS está incorreta e isso acontece ao usar dados de séries temporais (autocorrelação, etc.). (outra questão sobre isso, uma suposição do GM é que as variáveis ​​independentes devem ser normalmente distribuídas? ou apenas a variável dependente condicional às independentes?)

Também sei que, ao usar uma regressão de retardo distribuído, que é o que acho que estou propondo aqui, e usar o OLS para estimar parâmetros, a multicolinearidade entre variáveis ​​pode (obviamente) surgir, portanto as estimativas estariam erradas.

Em um post semelhante sobre TS e LR aqui, @IrishStat disse:

... um modelo de regressão é um caso particular de um modelo de função de transferência também conhecido como modelo de regressão dinâmica ou modelo XARMAX. O ponto de destaque é que a identificação do modelo em séries temporais, ou seja, as diferenças apropriadas, as defasagens apropriadas dos X's, a estrutura ARIMA apropriada, a identificação apropriada de estruturas determinísticas não especificadas, como pulsos, turnos de nível, tendências da hora local, pulsos sazonais e incorporação mudanças nos parâmetros ou variação de erro devem ser consideradas.

(Também li seu artigo na Autobox sobre Box Jenkins vs LR.) Mas isso ainda não resolve minha pergunta (ou pelo menos não esclarece as diferentes mecânicas de RL e TS para mim).

É óbvio que, mesmo com variáveis ​​atrasadas, surgem problemas de OLS e isso não é eficiente nem correto, mas ao usar a máxima probabilidade, esses problemas persistem? Eu li que o ARIMA é estimado através da máxima probabilidade, portanto, se o LR com defasagens for estimado com ML em vez de OLS, ele produzirá os coeficientes "corretos" (vamos supor que incluamos termos de erro defasados ​​também, como um MA de ordem q)

Em suma, o problema é OLS? O problema foi resolvido com a aplicação do ML?

Miguel M.
fonte
4
Uma estranha semelhança com John Maynard Keynes.
Nick Cox
Oi @NickCox, sim, ele é meu economista favorito, acho que ele era um homem incrível e extremamente talentoso de várias maneiras ... alguma ajuda na minha pergunta? O que estou tentando descobrir é por que o modelo atrasado não funciona com a estimativa do OLS e se ele seria estimado corretamente com a estimativa de probabilidade máxima. Entendo que o melhor modelo é uma função de transferência e estou estudando no momento. Mas a questão teórica ainda permanece lá sobre o OLS. Se nenhuma autocorrelação estivesse presente, porque os atrasos a eliminariam (suponha também que o multicol. Não esteja presente), funcionaria? ou ainda existe e está subjacente #
Miguel M.
@NickCox ... efeito / violação de suposições gaussianas com as quais o OLS não pode trabalhar e que não podem ser ajustadas com esse método? Como você pode ver eu estou um pouco perdido com isso, se o seu muito tempo para resposta, por favor, se você pode fornecer alguma palestra que possam esclarecer que eu aprecio muito
Miguel M.
1
Em termos de mecânica, deixe-me sugerir que o modelo ARMA para o usuário sugerido (diferenciado adequadamente) variável X reflete a não estacionariedade. produzindo uma estrutura de atraso sugerida (entendimento). Essa estrutura de defasagem pode então ser aplicada às séries originais apropriadamente diferenciadas para fornecer uma sugestão sobre as séries não especificadas / background (o processo de erro experimental). Esse processo de erro pode ser estudado para produzir o ARMA apropriado.
IrishStat
@IrishStat então deixe-me reformular o que você acabou de dizer. Vamos ter a variável dependente Yt e a variável independente Xt, diferimos Yt e Xt até termos estacionariedade em ambos e, em seguida, podemos aplicar a função de correlação cruzada para descobrir a estrutura do atraso. Depois regredimos Yt para Xt e estudamos o termo de erro. Se encontrarmos a estrutura ARMA no termo de erro, aplicamos no modelo até termos ruído branco, correto? Mas, minha pergunta ainda é: esse último modelo foi ajustado via OLS? Se não, por que não e qual método usamos?
Miguel M.

Respostas:

9

Por que criar um método totalmente novo, isto é, séries temporais (ARIMA), em vez de usar regressão linear múltipla e adicionar variáveis ​​atrasadas (com a ordem dos atrasos determinada usando ACF e PACF)?

Um ponto imediato é que uma regressão linear funciona apenas com variáveis ​​observadas enquanto o ARIMA incorpora variáveis ​​não observadas na parte da média móvel; assim, o ARIMA é mais flexível, ou mais geral, de certa forma. O modelo AR pode ser visto como um modelo de regressão linear e seus coeficientes podem ser estimados usando OLS; Β S G S = ( X ' x ) - 1 X ' yβ^OeuS=(XX)-1Xy onde consiste de desfasamentos da variável dependente que são observados . Enquanto isso, os modelos MA ou ARMA não se encaixam na estrutura OLS, pois algumas das variáveis, a saber, os termos de erro em atraso, não são observadasXe, portanto, o estimador OLS é inviável.

Uma suposição do GM é que as variáveis ​​independentes devem ser normalmente distribuídas? ou apenas a variável dependente condicional à independente?

Às vezes, a suposição de normalidade é invocada para erros de modelo, não para variáveis ​​independentes. No entanto, a normalidade não é necessária para a consistência e eficiência do estimador OLS, nem para o teorema de Gauss-Markov. O artigo da Wikipedia sobre o teorema de Gauss-Markov afirma explicitamente que "os erros não precisam ser normais".

a multicolinearidade entre variáveis ​​pode (obviamente) surgir; portanto, as estimativas estariam erradas.

Um alto grau de multicolinearidade significa variação inflada do estimador OLS. No entanto, o estimador OLS ainda é AZUL, desde que a multicolinearidade não seja perfeita. Portanto, sua declaração não parece correta.

É óbvio que, mesmo com variáveis ​​atrasadas, surgem problemas de OLS e isso não é eficiente nem correto, mas ao usar a máxima probabilidade, esses problemas persistem?

Um modelo de RA pode ser estimado usando OLS e ML; ambos os métodos fornecem estimadores consistentes. Os modelos MA e ARMA não podem ser estimados pelo OLS; portanto, ML é a principal escolha; novamente, é consistente. A outra propriedade interessante é a eficiência, e aqui não tenho certeza absoluta (mas claramente as informações devem estar disponíveis em algum lugar, pois a pergunta é bastante padrão). Eu tentaria comentar sobre "correção", mas não sei ao certo o que você quer dizer com isso.

Richard Hardy
fonte
Olá Sr. Hardy, muito obrigado pela resposta. Em relação aos valores observados vs. não observados, apenas para resumir. No ARIMA e nas séries temporais (mais especificamente no XARIMAX), empregamos uma abordagem "dinâmica", pois usamos o erro de previsão e, na regressão linear, não os usamos - mas podemos usá-los. Eu não entendo, então a questão aqui. Ou, como diz o @IrishStat, a única diferença é o caminho para identificar e modelar estratégias de revisão?
Miguel M.
E quanto à estimativa, o OLS (novamente) está correto ao incluir erros atrasados ​​no modelo? Em relação à multicolinearidade, quis dizer que os coeficientes estimados podem não estar corretos, pois sua estimativa tem uma grande variação. Pelo método correto, quis dizer, se o uso do OLS fornece estimativas imparciais e eficientes em comparação ao ML ao usar os modelos defasados ​​propostos.
Miguel M.
@ MiguelM, estou viajando agora, vou tentar voltar mais tarde.
Richard Hardy
1
Em relação a "na regressão linear, não as usamos - mas poderíamos usá-las": não observamos essas variáveis ​​e, portanto, elas não podem ser usadas na estrutura de regressão linear devido à mecânica existente (como observei na resposta, o estimador é inviável); no entanto, eles podem ser usados ​​na estrutura ARIMA. Em relação a "OLS (novamente) está correto ao incluir erros atrasados ​​no modelo?", Sim, isso deve ser verdade. Em relação à "correção", se o modelo for especificado corretamente e o OLS e o ML forem viáveis, ambos deverão funcionar bem. Sob especificações erradas, as coisas tendem a dar errado.
Richard Hardy
1
y=β0 0+β1x+εxy=β0 0+β1x+εx
5

Essa é uma ótima pergunta. A diferença real entre os modelos ARIMA e a regressão linear múltipla está na sua estrutura de erros. Você pode manipular as variáveis ​​independentes em um modelo de regressão linear múltipla para que elas se ajustem aos dados da série temporal, que é o que @IrishStat está dizendo. No entanto, depois disso, você precisará incorporar erros ARIMA em seu modelo de regressão múltipla para obter o coeficiente correto e os resultados do teste. Um ótimo livro gratuito sobre isso é: https://www.otexts.org/fpp/9/1 . Vinculei a seção que discute a combinação do ARIMA e de vários modelos de regressão.

LindsayL
fonte
1

Boa pergunta, na verdade, eu criei tanto no meu trabalho como cientista de dados. Os modelos de séries temporais são fáceis de criar (o pacote de previsão em R permite criar um em menos de 5 segundos), o mesmo ou mais preciso que os modelos de regressão, etc. Geralmente, sempre se deve criar séries temporais e depois regressar. Também existem implicações filosóficas das séries temporais; se você pode prever sem saber nada, o que isso significa?

Minha opinião sobre Darlington. 1) "A regressão é muito mais flexível e poderosa, produzindo melhores modelos. Esse ponto é desenvolvido em vários pontos ao longo do trabalho".

Não, pelo contrário. Modelos de regressão fazem muito mais suposições do que modelos de séries temporais. Quanto menos suposições, maior a probabilidade de resistir ao terremoto (mudança de regime). Além disso, os modelos de séries temporais respondem mais rapidamente a mudanças repentinas.

2) "A regressão é muito mais fácil de dominar do que o ARIMA, pelo menos para aqueles que já estão familiarizados com o uso da regressão em outras áreas". Esse é um raciocínio circular.

3) "A regressão usa um algoritmo computacional" fechado ", que é essencialmente garantido para gerar resultados, se possível, enquanto o ARIMA e muitos outros métodos usam algoritmos iterativos que geralmente não conseguem chegar a uma solução. Eu sempre vi o método ARIMA" desligar "em dados que não deram problema ao método de regressão."

A regressão fornece uma resposta, mas é a resposta certa? Se eu construo modelos de regressão linear e aprendizado de máquina e todos eles chegam à mesma conclusão, o que isso significa?

Portanto, em resumo, a regressão sim e as séries temporais podem responder à mesma pergunta e, tecnicamente, as séries temporais são tecnicamente regressivas (embora com auto-regressão). Os modelos de séries temporais são menos complexos e, portanto, mais robustos que os modelos de regressão. Se você pensa em especialização, os modelos TS são especializados em previsão, enquanto a regressão é especializada em entendimento. Tudo se resume a se você deseja explicar ou prever.

Hidden Markov Model
fonte
1
"Os modelos de séries temporais são menos complexos e, portanto, mais robustos que os modelos de regressão" .... O que você quis dizer foi "Os modelos ARIMA são menos complexos e, portanto, mais robustos que os modelos de regressão". Incorporar o ARIMA e a regressão é conhecido como Modelos de Função de Transferência ..., que é a melhor escolha, combinando, assim, o entendimento (regressão) e os fatores de fundo desconhecidos / não especificados (ARIMA).
IrishStat
2
@IrishStat Olá Sr. Reilly, eu tenho lido suas respostas para várias postagens aqui no stackexchange, e também li muitos artigos na Autobox e também os links para o curso de séries temporais da PSU, mas ainda não o li. entender por que (ou se) uma regressão linear (usando OLS), com o uso de variáveis defasadas e termos de erro defasados se necessário não iria funcionar
Miguel M.
@IrishStat é o método OLS que não funciona?
Miguel M.
1
IrishStat para expandir seu ponto de vista, o objetivo seria a causalidade de Granger. Por exemplo, mesmo que um coeficiente seja estatisticamente significativo, ele pode não ser necessariamente significativo para melhorar a precisão da previsão. Em minha pesquisa, descobri que os modelos de regressão (linear, laço etc.) tendem a dizer que as coisas são importantes do que realmente são, enquanto a floresta aleatória tende a rebaixá-las e identificar as verdadeiras alavancas. Além disso, a floresta aleatória tem a mesma precisão fora da amostra que os modelos lineares. A única desvantagem é que você não pode dizer quais são realmente os coeficientes.
Markov escondido modelo
2
@MiguelM. Certamente poderia funcionar porque uma Função de Transferência é um modelo de Atraso Distribuído Polinomial, talvez incluindo mudanças de nível empiricamente detectadas / tendências de tempo / pulsos sazonais ao ajustar pulsos (anomalias únicas). Acho que a principal diferença é o caminho para as estratégias de identificação e revisão de modelos
IrishStat 01/01
0

Pensando que a diferença mais profunda entre funções de transferência e regressão linear multiponto (em seu uso usual) reside em seus objetivos, várias regressões são orientadas para encontrar os principais determinantes observáveis ​​causais da variável dependente, enquanto as funções de transferência apenas desejam prever o efeito em um dependente. variável da variação de uma variável exógena específica ... Em resumo, a regressão múltipla é orientada para explicações exaustivas e transfere a função para prever efeitos muito específicos ...

Rodolfo
fonte
Não acho que isso seja exato, porque ambos os métodos produzem coeficientes que podem de fato ser interpretados. Além disso, as funções de transferência dependem muito da análise causal e são realmente melhores em distinguir do que a regressão linear múltipla. Além disso, este post solicita as diferenças mecânicas / metodológicas entre esses dois métodos
Miguel M.