Armadilhas na análise de séries temporais

46

Estou apenas começando o auto-aprendizado na análise de séries temporais. Percebi que existem várias armadilhas potenciais que não são aplicáveis às estatísticas gerais. Então, desenvolvendo O que são pecados estatísticos comuns? , Eu gostaria de perguntar:

O que são armadilhas comuns ou pecados estatísticos na análise de séries temporais?

Este é um wiki da comunidade, um conceito por resposta e, por favor, nenhuma repetição de armadilhas estatísticas mais gerais que são (ou deveriam ser) listadas em O que são pecados estatísticos comuns?

time-series self-study naught101
fonte

18

Extrapolar uma regressão linear em uma série temporal, em que o tempo é uma das variáveis independentes na regressão. Uma regressão linear pode aproximar uma série temporal em uma escala temporal curta e pode ser útil em uma análise, mas extrapolar uma linha reta é uma tolice. (O tempo é infinito e sempre crescente.)

Edição: Em resposta à pergunta de naught101 sobre "tolo", minha resposta pode estar errada, mas parece-me que a maioria dos fenômenos do mundo real não aumenta ou diminui continuamente para sempre. A maioria dos processos possui fatores limitantes: as pessoas param de crescer em altura à medida que envelhecem, os estoques nem sempre aumentam, as populações não podem ficar negativas, você não pode encher sua casa com um bilhão de filhotes, etc. Tempo, diferente das variáveis independentes que surgem lembre-se, tem um suporte infinito, então você pode imaginar seu modelo linear prevendo o preço das ações da Apple daqui a 10 anos, porque certamente daqui a 10 anos. (Considerando que você não extrapolaria uma regressão peso-altura para prever o peso de machos adultos de 20 metros de altura: eles não existem e não existem).

Além disso, as séries temporais geralmente têm componentes cíclicos ou pseudo-cíclicos ou componentes de passeio aleatório. Como o IrishStat menciona em sua resposta, é necessário considerar a sazonalidade (às vezes sazonalidades em várias escalas de tempo), as mudanças de nível (que farão coisas estranhas às regressões lineares que não as consideram) etc. Uma regressão linear que ignora os ciclos ajuste a curto prazo, mas seja altamente enganador se você o extrapolar.

Claro, você pode ter problemas sempre que extrapolar, séries temporais ou não. Mas parece-me que muitas vezes vemos alguém lançar uma série temporal (crimes, preços das ações etc.) no Excel, soltar uma PREVISÃO ou PROJ.LIN e prever o futuro por meio de uma linha reta, como se os preços das ações aumentassem continuamente (ou declinar continuamente, incluindo a negativa).

Wayne
fonte

Você pode expandir por que isso é tolice?

precisa saber é o seguinte

1

+1 nos exemplos impressionantes. Eu estou calculando exatamente quantos filhotes I pode caber na minha casa agora: D

naught101

3

Esta é uma ótima ilustração do seu ponto: xkcd.com/605

Zach

1

@naught Mark Twain fez uma grande exibição trabalho, na mais simples linguagem possível, porque "tolo" é apropriado para extrapolação linear de uma série temporal.

whuber

E isso: stats.stackexchange.com/a/13904/9007 ... Um ponto semelhante é a extrapolação de uma tendência polinomial (especialmente de alto grau) ou qualquer outro modelo que não tenha relevância física. Eu escrevi um post sobre isso porque é uma péssima idéia , quando eu estava me ensinando a oitava.

Na1101

13

Prestando atenção à correlação entre duas séries temporais não estacionárias. (Não é inesperado que eles tenham um alto coeficiente de correlação: procure "correlação sem sentido" e "cointegração".)

Por exemplo, no google correlate, cães e piercings na orelha têm um coeficiente de correlação de 0,84.

Para uma análise mais antiga, consulte a exploração do problema de Yule em 1926

Wayne
fonte

Claro que nem sempre. x<-seq(0,100,0.001); cor(sin(x)+rnorm(100001), cos(x)+rnorm(100001)) == 0.002554309

precisa saber é o seguinte

@Wayne Agradece uma tonelada pelo artigo de Yule. Eu cito isso desde 1970 e nunca o li de fato. É bem conhecido em alguns círculos aparentemente pequenos.

precisa saber é o seguinte

7

No nível superior, Kolmogorov identificou a independência como uma suposição-chave em estatística - sem a suposição de Iid, muitos resultados importantes em estatística não são verdadeiros, sejam aplicados a séries temporais ou a tarefas de análise mais gerais.

Amostras sucessivas ou próximas na maioria dos sinais de tempo discreto do mundo real não são independentes; portanto, deve-se tomar cuidado para decompor um processo em um modelo determinístico e um componente de ruído estocástico. Mesmo assim, o pressuposto de incremento independente no cálculo estocástico clássico é problemático: lembre-se do Nobel de economia de 1997 e da implosão do LTCM de 1998, que contou os laureados entre seus diretores (embora seja justo, o gerente do fundo, Merrywhether provavelmente é mais culpado do que quant métodos).

alancalvitti
fonte

"análise de séries temporais" como um campo de estudo. Basicamente, quero dizer qualquer coisa que possa atrapalhar alguém novo no estudo de séries temporais (de qualquer tipo e qualquer tipo de análise). Não estou procurando respostas abrangentes. Verifique a pergunta que eu referenciei na minha pergunta para ter uma idéia do que estou tentando fazer aqui.

precisa saber é o seguinte

Eu quis dizer o tipo de análise

alancalvitti

Eu sei. Eu acho que você está perdendo o objetivo da pergunta. Sinta-se livre para comentar sobre obstáculos comuns em qualquer análise de tipo , de qualquer tipo de problema de série temporal com o qual você tenha experiência. Apenas mantenha-o em problemas específicos de séries temporais.

precisa saber é o seguinte

Hey @alancalvitti, esse exemplo de economia parece interessante. Você conhece uma boa descrição para a qual possamos ligar aqui?

precisa saber é o seguinte

Editei esta resposta para compará-la ao ponto principal apresentado (para trazê-la de volta ao estilo de um ponto por resposta). Isso significava remover o material da análise espectral. Talvez algo possa ser dito sobre isso em uma resposta separada (embora não pareça ser sobre armadilhas, especificamente, provavelmente existem armadilhas relacionadas à análise espectral que poderíamos observar aqui). A discussão acima agora não faz sentido, mas você entendeu isso, eu acho: /

naught101

2

Estar muito certo dos resultados do seu modelo porque você usa uma técnica / modelo (como OLS) que não leva em consideração a autocorrelação de uma série temporal.

Não tenho um gráfico bonito, mas o livro "Série Temporal Introdutória com R" (2009, Cowpertwait et al) fornece uma explicação intuitiva razoável: se houver uma autocorrelação positiva, os valores acima ou abaixo da média tenderão a persistir e ser agrupados no tempo. Isso leva a uma estimativa menos eficiente da média, o que significa que você precisa de mais dados para estimar a média com a mesma precisão do que se houvesse autocorrelação zero. Você efetivamente possui menos dados do que pensa.

O processo OLS (e, portanto, você) assume que não há autocorrelação; portanto, você também está assumindo que a estimativa da média é mais precisa (para a quantidade de dados que você possui) do que realmente é. Assim, você acaba sendo mais confiante em seus resultados do que deveria.

(Isso pode funcionar de outra maneira para a autocorrelação negativa: sua estimativa da média é realmente mais eficiente do que seria de outra forma. Não tenho nada para provar isso, mas sugiro que a correlação positiva seja mais comum na maioria dos países do mundo real. correlação negativa.)

Wayne
fonte

Um exemplo aqui seria ótimo, eu não entender completamente a resposta, tal como está

naught101

Obrigado pela edição @Wayne, mas eu meio que quis dizer um exemplo do mundo real, de preferência com alguma visualização. Obviamente, outros podem adicionar isso também - é um wiki da comunidade.

precisa saber é o seguinte

1

@ naught101: Ah. Duas das minhas três sugestões que fiz aqui são baseadas no que aprendi, mas não necessariamente o suficiente para dar um bom exemplo. Vou tentar procurar um na web.

27712 Wayne

São apenas dados simulados, mas minha resposta para outra pergunta tem algum código R com um modelo adequado ao OLS e, em seguida, mais apropriadamente levando em consideração a autocorrelação - com valores-p dramaticamente mais altos. stats.stackexchange.com/questions/27254/…

Peter Ellis

2

O impacto das mudanças de nível, pulsos sazonais e tendências da hora local ... além dos pulsos únicos. Alterações nos parâmetros ao longo do tempo são importantes para investigar / modelar. Possíveis alterações na variação dos erros ao longo do tempo devem ser investigadas. Como determinar como Y é impactado pelos valores contemporâneos e defasados de X. Como identificar se valores futuros de X podem impactar os valores atuais de Y. Como descobrir que dias específicos do mês afetam. Como modelar problemas de frequência mista, onde os dados horários são impactados pelos valores diários?

nada me pediu para fornecer informações / exemplos mais específicos sobre mudanças de nível e pulsos. Para esse fim, agora incluo mais algumas discussões. Uma série que exibe um ACF sugerindo não estacionariedade está efetivamente entregando um "sintoma". Um remédio sugerido é "diferenciar" os dados. Um remédio esquecido é "desregular" os dados. Se uma série tem uma mudança de nível "principal" na média (ou seja, interceptação), o ACF de toda essa série pode ser facilmente mal interpretado para sugerir diferenciação. Mostrarei um exemplo de uma série que exibe uma mudança de nível. Se eu acentuasse (ampliei) a diferença entre os dois, o ACF da série total sugeriria (incorretamente!) A necessidade de diferença. Pulsos não tratados / mudanças de nível / pulsos sazonais / tendências de hora local aumentam a variação dos erros que ofuscam a importância da estrutura do modelo e são a causa de estimativas de parâmetros falhas e previsões ruins. Agora vamos a um exemplo. º insira a descrição da imagem aqui is é uma lista dos 27 valores mensais. Este é o gráfico . Existem quatro pulsos e uma mudança de nível E SEM TENDÊNCIA! e . Os resíduos desse modelo sugerem um processo de ruído branco . Alguns (a maioria!) Pacotes de previsão comercial e até grátis oferecem o seguinte absurdo, como resultado de assumir um modelo de tendência com fatores sazonais aditivos insira a descrição da imagem aqui . Para concluir e parafrasear Mark Twain. "Há bobagens e bobagens, mas a bobagem mais não sensorial de todas é bobagem estatística!" em comparação com um mais razoável . Espero que isto ajude !

IrishStat
fonte

1

Realmente? Estas são todas as armadilhas e pecados ? (Releia a parte enfatizada da pergunta!) Talvez você queira dizer o contrário do que escreveu?

whuber

A intenção dos meus comentários era apontar as armadilhas de não entreter ou considerar algumas dessas possíveis estruturas do mundo real. É preciso evitar suposições que não sejam razoavelmente validadas, caso contrário, pode-se obter resultados muito questionáveis.

precisa saber é o seguinte

3

Concluí que essa era a intenção, mas em sua forma atual é fácil entender sua resposta. Por exemplo, é pecado avaliar o "impacto" de "pulsos únicos" ou é pecado não fazer isso? Isso é suficientemente vago para que uma boa interpretação possa ser feita para qualquer interpretação! (Sim, é um pecado, porque pulsos únicos podem ser apenas discrepantes aos quais você não deseja conceder influência indevida, e prestar contas de todos eles pode super parametrizar o modelo; não, eles precisam ser incluídos porque seus efeitos podem persistir. um longo tempo e ignorando que poderiam enviesar as estimativas de outros parâmetros).

whuber

@whuber Se os efeitos de um pulso único persistirem, isso poderá ser modelado como uma sequência de pulsos únicos em pontos sucessivos. Isso não é tão elegante quanto poderia ser, mas eficaz, no entanto. Como você afirmou corretamente, não deseja que valores errôneos distorcem as estimativas de parâmetros da estrutura repetitiva, portanto, é um "pecado" não tratar a estrutura determinística não especificada, como pulsos, mudanças de nível, pulsos sazonais e / ou tendências da hora local.

precisa

Eu acho que seria uma resposta realmente interessante se a primeira frase (mudanças de nível e pulsos) fosse expandida bastante (com alguns exemplos), e o resto fosse descartado. A heteroscedasticidade daria uma boa resposta separada.

precisa saber é o seguinte

1

Definindo tendência como um crescimento linear ao longo do tempo.

Embora algumas tendências sejam de alguma forma lineares (consulte o preço das ações da Apple), e embora o gráfico de séries temporais pareça um gráfico de linhas em que é possível encontrar regressão linear, a maioria das tendências não é linear.

Há mudanças de etapa, como mudanças quando algo aconteceu em um momento específico que mudou o comportamento da medida ( "A ponte entrou em colapso e nenhum carro passou por cima dela desde então ").

Outra tendência popular é o "Buzz" - crescimento exponencial e um declínio acentuado semelhante posteriormente ( "Nossa campanha de marketing foi um enorme sucesso, mas o efeito desapareceu após algumas semanas" ).

Conhecer o modelo certo (regressão logística, etc.) da tendência na série temporal é crucial na capacidade de detectá-lo nos dados da série temporal.

Cara
fonte

1

Além de alguns pontos importantes que já foram mencionados, eu acrescentaria:

Falha em detectar ciclos longos ou sazonalidade - examinando apenas dados durante um período de tempo 'insuficientemente longo'
Falha na avaliação do erro de previsão para períodos anteriores ( backtesting )
Falha em detectar e lidar com mudanças de regime

Esses problemas não estão relacionados aos métodos estatísticos envolvidos, mas ao desenho do estudo, ou seja, quais dados incluir e como avaliar os resultados.

A parte complicada do ponto 1. é garantir que observamos um período suficiente dos dados para tirar conclusões sobre o futuro. Durante minha primeira palestra sobre séries temporais, o professor desenhou uma longa curva sinusal no quadro e apontou que ciclos longos parecem tendências lineares quando observados em uma janela curta (bastante simples, mas a lição ficou comigo).

O ponto 2. é especialmente relevante se os erros do seu modelo tiverem implicações práticas. Entre outros campos, ele está sendo amplamente utilizado no setor financeiro, mas eu diria que avaliar os erros de previsão em períodos anteriores faz muito sentido para todos os modelos de séries temporais em que os dados o permitem.

O ponto 3. toca novamente sobre o assunto em que parte dos dados passados é representativa do futuro. Este é um tópico complexo com uma grande quantidade de literatura - vou citar meu favorito: abobrinha e MacDonald como exemplo.

meio-para-significado
fonte

1

Evite aliases em séries temporais amostradas. Se você estiver analisando dados de séries temporais que são amostrados em intervalos regulares, a taxa de amostragem deve ser duas vezes a frequência do componente de frequência mais alta nos dados que você está amostrando. Esta é a teoria de amostragem de Nyquist e se aplica ao áudio digital, mas também a qualquer série temporal amostrada em intervalos regulares. A maneira de evitar aliasing é filtrar todas as frequências acima da taxa nyquist, que é metade da taxa de amostragem. Por exemplo, para áudio digital, uma taxa de amostragem de 48 kHz exigirá um filtro passa-baixo com um limite abaixo de 24 kHz.
O efeito do aliasing pode ser visto quando as rodas parecem girar para trás, devido a um efeito estrobiscópico em que a taxa de estroboscópios é próxima da taxa de rotação da roda. A taxa lenta observada é um alias da taxa real de revolução.

marty
fonte

Armadilhas na análise de séries temporais

Respostas: