Extrapolar uma regressão linear em uma série temporal, em que o tempo é uma das variáveis independentes na regressão. Uma regressão linear pode aproximar uma série temporal em uma escala temporal curta e pode ser útil em uma análise, mas extrapolar uma linha reta é uma tolice. (O tempo é infinito e sempre crescente.)
Edição: Em resposta à pergunta de naught101 sobre "tolo", minha resposta pode estar errada, mas parece-me que a maioria dos fenômenos do mundo real não aumenta ou diminui continuamente para sempre. A maioria dos processos possui fatores limitantes: as pessoas param de crescer em altura à medida que envelhecem, os estoques nem sempre aumentam, as populações não podem ficar negativas, você não pode encher sua casa com um bilhão de filhotes, etc. Tempo, diferente das variáveis independentes que surgem lembre-se, tem um suporte infinito, então você pode imaginar seu modelo linear prevendo o preço das ações da Apple daqui a 10 anos, porque certamente daqui a 10 anos. (Considerando que você não extrapolaria uma regressão peso-altura para prever o peso de machos adultos de 20 metros de altura: eles não existem e não existem).
Além disso, as séries temporais geralmente têm componentes cíclicos ou pseudo-cíclicos ou componentes de passeio aleatório. Como o IrishStat menciona em sua resposta, é necessário considerar a sazonalidade (às vezes sazonalidades em várias escalas de tempo), as mudanças de nível (que farão coisas estranhas às regressões lineares que não as consideram) etc. Uma regressão linear que ignora os ciclos ajuste a curto prazo, mas seja altamente enganador se você o extrapolar.
Claro, você pode ter problemas sempre que extrapolar, séries temporais ou não. Mas parece-me que muitas vezes vemos alguém lançar uma série temporal (crimes, preços das ações etc.) no Excel, soltar uma PREVISÃO ou PROJ.LIN e prever o futuro por meio de uma linha reta, como se os preços das ações aumentassem continuamente (ou declinar continuamente, incluindo a negativa).
Prestando atenção à correlação entre duas séries temporais não estacionárias. (Não é inesperado que eles tenham um alto coeficiente de correlação: procure "correlação sem sentido" e "cointegração".)
Por exemplo, no google correlate, cães e piercings na orelha têm um coeficiente de correlação de 0,84.
Para uma análise mais antiga, consulte a exploração do problema de Yule em 1926
fonte
x<-seq(0,100,0.001); cor(sin(x)+rnorm(100001), cos(x)+rnorm(100001)) == 0.002554309
No nível superior, Kolmogorov identificou a independência como uma suposição-chave em estatística - sem a suposição de Iid, muitos resultados importantes em estatística não são verdadeiros, sejam aplicados a séries temporais ou a tarefas de análise mais gerais.
Amostras sucessivas ou próximas na maioria dos sinais de tempo discreto do mundo real não são independentes; portanto, deve-se tomar cuidado para decompor um processo em um modelo determinístico e um componente de ruído estocástico. Mesmo assim, o pressuposto de incremento independente no cálculo estocástico clássico é problemático: lembre-se do Nobel de economia de 1997 e da implosão do LTCM de 1998, que contou os laureados entre seus diretores (embora seja justo, o gerente do fundo, Merrywhether provavelmente é mais culpado do que quant métodos).
fonte
Estar muito certo dos resultados do seu modelo porque você usa uma técnica / modelo (como OLS) que não leva em consideração a autocorrelação de uma série temporal.
Não tenho um gráfico bonito, mas o livro "Série Temporal Introdutória com R" (2009, Cowpertwait et al) fornece uma explicação intuitiva razoável: se houver uma autocorrelação positiva, os valores acima ou abaixo da média tenderão a persistir e ser agrupados no tempo. Isso leva a uma estimativa menos eficiente da média, o que significa que você precisa de mais dados para estimar a média com a mesma precisão do que se houvesse autocorrelação zero. Você efetivamente possui menos dados do que pensa.
O processo OLS (e, portanto, você) assume que não há autocorrelação; portanto, você também está assumindo que a estimativa da média é mais precisa (para a quantidade de dados que você possui) do que realmente é. Assim, você acaba sendo mais confiante em seus resultados do que deveria.
(Isso pode funcionar de outra maneira para a autocorrelação negativa: sua estimativa da média é realmente mais eficiente do que seria de outra forma. Não tenho nada para provar isso, mas sugiro que a correlação positiva seja mais comum na maioria dos países do mundo real. correlação negativa.)
fonte
O impacto das mudanças de nível, pulsos sazonais e tendências da hora local ... além dos pulsos únicos. Alterações nos parâmetros ao longo do tempo são importantes para investigar / modelar. Possíveis alterações na variação dos erros ao longo do tempo devem ser investigadas. Como determinar como Y é impactado pelos valores contemporâneos e defasados de X. Como identificar se valores futuros de X podem impactar os valores atuais de Y. Como descobrir que dias específicos do mês afetam. Como modelar problemas de frequência mista, onde os dados horários são impactados pelos valores diários?
nada me pediu para fornecer informações / exemplos mais específicos sobre mudanças de nível e pulsos. Para esse fim, agora incluo mais algumas discussões. Uma série que exibe um ACF sugerindo não estacionariedade está efetivamente entregando um "sintoma". Um remédio sugerido é "diferenciar" os dados. Um remédio esquecido é "desregular" os dados. Se uma série tem uma mudança de nível "principal" na média (ou seja, interceptação), o ACF de toda essa série pode ser facilmente mal interpretado para sugerir diferenciação. Mostrarei um exemplo de uma série que exibe uma mudança de nível. Se eu acentuasse (ampliei) a diferença entre os dois, o ACF da série total sugeriria (incorretamente!) A necessidade de diferença. Pulsos não tratados / mudanças de nível / pulsos sazonais / tendências de hora local aumentam a variação dos erros que ofuscam a importância da estrutura do modelo e são a causa de estimativas de parâmetros falhas e previsões ruins. Agora vamos a um exemplo. ºis é uma lista dos 27 valores mensais. Este é o gráfico . Existem quatro pulsos e uma mudança de nível E SEM TENDÊNCIA! e . Os resíduos desse modelo sugerem um processo de ruído branco . Alguns (a maioria!) Pacotes de previsão comercial e até grátis oferecem o seguinte absurdo, como resultado de assumir um modelo de tendência com fatores sazonais aditivos . Para concluir e parafrasear Mark Twain. "Há bobagens e bobagens, mas a bobagem mais não sensorial de todas é bobagem estatística!" em comparação com um mais razoável . Espero que isto ajude !
fonte
Definindo tendência como um crescimento linear ao longo do tempo.
Embora algumas tendências sejam de alguma forma lineares (consulte o preço das ações da Apple), e embora o gráfico de séries temporais pareça um gráfico de linhas em que é possível encontrar regressão linear, a maioria das tendências não é linear.
Há mudanças de etapa, como mudanças quando algo aconteceu em um momento específico que mudou o comportamento da medida ( "A ponte entrou em colapso e nenhum carro passou por cima dela desde então ").
Outra tendência popular é o "Buzz" - crescimento exponencial e um declínio acentuado semelhante posteriormente ( "Nossa campanha de marketing foi um enorme sucesso, mas o efeito desapareceu após algumas semanas" ).
Conhecer o modelo certo (regressão logística, etc.) da tendência na série temporal é crucial na capacidade de detectá-lo nos dados da série temporal.
fonte
Além de alguns pontos importantes que já foram mencionados, eu acrescentaria:
Esses problemas não estão relacionados aos métodos estatísticos envolvidos, mas ao desenho do estudo, ou seja, quais dados incluir e como avaliar os resultados.
A parte complicada do ponto 1. é garantir que observamos um período suficiente dos dados para tirar conclusões sobre o futuro. Durante minha primeira palestra sobre séries temporais, o professor desenhou uma longa curva sinusal no quadro e apontou que ciclos longos parecem tendências lineares quando observados em uma janela curta (bastante simples, mas a lição ficou comigo).
O ponto 2. é especialmente relevante se os erros do seu modelo tiverem implicações práticas. Entre outros campos, ele está sendo amplamente utilizado no setor financeiro, mas eu diria que avaliar os erros de previsão em períodos anteriores faz muito sentido para todos os modelos de séries temporais em que os dados o permitem.
O ponto 3. toca novamente sobre o assunto em que parte dos dados passados é representativa do futuro. Este é um tópico complexo com uma grande quantidade de literatura - vou citar meu favorito: abobrinha e MacDonald como exemplo.
fonte
Evite aliases em séries temporais amostradas. Se você estiver analisando dados de séries temporais que são amostrados em intervalos regulares, a taxa de amostragem deve ser duas vezes a frequência do componente de frequência mais alta nos dados que você está amostrando. Esta é a teoria de amostragem de Nyquist e se aplica ao áudio digital, mas também a qualquer série temporal amostrada em intervalos regulares. A maneira de evitar aliasing é filtrar todas as frequências acima da taxa nyquist, que é metade da taxa de amostragem. Por exemplo, para áudio digital, uma taxa de amostragem de 48 kHz exigirá um filtro passa-baixo com um limite abaixo de 24 kHz.
O efeito do aliasing pode ser visto quando as rodas parecem girar para trás, devido a um efeito estrobiscópico em que a taxa de estroboscópios é próxima da taxa de rotação da roda. A taxa lenta observada é um alias da taxa real de revolução.
fonte