Efeitos de amostragem em modelos de séries temporais

9

Estou trabalhando extensivamente com modelos de séries temporais financeiras, principalmente AR (I) MA e Kalman.

Um problema que continuo enfrentando é a frequência de amostragem. Inicialmente, eu pensava que, se fosse oferecida a possibilidade de amostrar com mais frequência a partir de um processo subjacente, eu deveria amostrar com a maior frequência possível, para que eu tenha um número muito maior de amostras; portanto, os parâmetros do meu modelo terão menos variação.

Na realidade, essa idéia não acabou sendo boa. O que aconteceu é que, se o processo subjacente não estiver exibindo variação suficiente, aumentar a frequência de amostragem significa realmente obter muitos (mesmos) valores repetidos. E a construção de um modelo com base nesses valores resulta em modelos com coeficientes de modelo muito pequenos que não prevêem bem no futuro (é claro que a definição de "poço" é subjetiva e o aumento da frequência requer a previsão de muito mais etapas de amostra no futuro para atingir o mesmo intervalo de tempo em uma configuração de frequência mais baixa). O modelo aprende o que encontra mais - uma linha plana.

Eu queria fazer uma abordagem de amostragem adaptativa, ou seja, amostrar com mais frequência quando houver variação e com menos frequência quando não houver. Isso não é fácil, no entanto. Antes de tudo, não está claro que tipo de viés estou introduzindo ao fazê-lo (e será diferente dependendo de como eu acionar a amostra / pular). Em segundo lugar, modelos de séries temporais como o ARIMA não são adequados para etapas de amostra desiguais.

Existe uma boa maneira de lidar com esse problema? Também me faz pensar como é possível obter uma transição perfeita entre modelos de tempo contínuos e modelos de tempo discretos, se os modelos são tão dramaticamente afetados pela frequência de amostragem (especialmente quando os intervalos de tempo ficam cada vez menores)? Qualquer indicação de recursos externos também será apreciada.

obrigado

Cagdas Ozgenc
fonte
1
"amostrar com mais frequência quando houver variação e com menos frequência quando não houver" poderia funcionar na amostra, mas isso seria difícil de usar para previsões fora da amostra. Você está interessado no primeiro ou no último? Além disso, se você encontrar regimes com baixa variação (ou nenhuma variação) seguidos por regimes de alta variação, naturalmente precisará de modelos separados para os dois. Caso contrário, você teria um modelo para todo o processo e a amostragem em intervalos / frequências desiguais pareceria intuitivamente abaixo do ideal. Além disso, o último parágrafo é considerado uma pergunta independente, IMHO.
Richard Hardy
1
Além disso, você pode considerar tornar seu título mais informativo, algo para indicar a ideia de amostrar com mais frequência em pontos de grandes movimentos.
Richard Hardy
1
@RichardHardy Pensei nos modelos de mudança de regime. No entanto, eles são notoriamente difíceis de treinar. Você sabe como identificar e treinar modelos de mudança de regime de maneira dinâmica (descobertos automaticamente sem especificar o ponto de mudança de regime com antecedência)? Você pode mostrar algumas dicas?
Cagdas Ozgenc 01/01

Respostas:

1

Os ARIMA podem não ser adequados ao seu objetivo, mas os modelos de espaço de estado são: você pode experimentar quantas vezes quiser (e, em princípio, quanto melhor) e executar uma atualização temporal em intervalos fixos, conforme a dinâmica do seu processo assumido. pode exigir. Uma das belezas dos modelos de espaço de estado é que o processo de observação é separado do processo do modelo e intervalos de tempo separados podem ser usados ​​para cada um.

F. Tusell
fonte
Isso não está resolvendo meu problema. Mesmo em um modelo de espaço de estado, os coeficientes do modelo são os primeiros a serem determinados. A metodologia de atualização do espaço de estados se aplica ao próprio vetor de estado, não às matrizes de coeficientes.
Cagdas Ozgenc # 1/16
Não entendo bem o seu comentário. Se você converter seu modelo no formato de espaço de estado, poderá calcular a probabilidade (assumindo a normalidade) usando o filtro Kalman, independentemente da frequência de amostragem. Maximizando essa probabilidade, é possível estimar os parâmetros nas matrizes do sistema.
F. Tusell
Isso é verdade se você conhece o modelo com antecedência. Quando todas as matrizes de transição de estado e matrizes de covariância de ruído são conhecidas, é possível fazer as atualizações e ignorar as etapas do tempo. Quando você recebe apenas os dados primeiro, precisa inferir as matrizes de transição. E essas matrizes diferem entre um período de alta volatilidade e um período de baixa volatilidade.
Cagdas Ozgenc 01/01
1

Gostaria de apontar para o artigo

Ghysels, E, P. Santa-Clara e R. Valkanov (2006): "Prevendo a volatilidade: aproveitando ao máximo os dados de retorno amostrados em diferentes frequências", Journal of Econometrics, vol. 131, pp. 59-95.

Os autores empregam uma técnica chamada MIDAS (amostragem de dados mistos) por si mesmos, a fim de comparar estimativas de volatilidade com base em dados amostrados em diferentes frequências. É certo que isso não é exatamente o que você estava procurando, mas os autores afirmam que sua técnica é adequada para comparar os resultados de maneira significativa. Talvez isso ofereça pelo menos uma segunda maneira de analisar seus dados. Parece que, em particular no campo da macroeconomia, essa abordagem ganhou algum interesse.

Dr_Be
fonte
1
Obrigado. O problema não é específico de séries temporais financeiras. Tome qualquer situação experimental e faça uma amostra com alta frequência na dimensão temporal. Você está terminando com uma linha longa e plana e os modelos aprendem isso, uma linha plana. Porque amostras repetidas superlotam as amostras significativas que realmente refletem a variação no processo subjacente. Isso é realmente problemático e não consigo encontrar muita coisa relacionada a esse tópico.
Cagdas Ozgenc
0

amostrar com mais frequência quando houver variação e com menos frequência quando não houver

Isso poderia funcionar na amostra, mas seria difícil de usar para previsões fora da amostra, a menos que você descubra como prever a própria variabilidade (e isso não precisa ser impossível). Além disso, se você encontrar regimes com baixa variação (ou nenhuma variação) seguidos por regimes de alta variação, naturalmente precisará de modelos separados para os dois; ter um modelo para todo o processo e amostrar em intervalos / frequências desiguais pareceria intuitivamente abaixo do ideal. Você mencionou modelos de mudança de regime (ao responder meu comentário), e essa é uma boa ilustração do que você pode precisar aqui.

Eu deveria amostrar com a maior frequência possível, para ter um número muito maior de amostras, portanto, os parâmetros do meu modelo terão menos variação.

Isso não é inteiramente verdade. Em uma configuração de série temporal, geralmente é o período de tempo, e não o número de observações que importa. Por exemplo, 120 observações mensais (abrangendo 10 anos) são uma amostra mais informativa do que 209 observações semanais (abrangendo 4 anos) ao testar a presença de uma raiz unitária; veja este Dave Giles' post e a última referência nele. Ou considere um caso limitador em que você faz uma amostragem com tanta frequência que essencialmente mede a mesma coisa várias vezes. Isso aumentaria o tamanho da amostra, mas não traria novas informações, levando a uma impressão espúria da precisão da estimativa. Então, talvez você não deva gastar muito tempo aumentando a frequência de amostragem e construindo alguns modelos correspondentes?

Richard Hardy
fonte
A postagem realmente não responde à pergunta. A mudança de regime é provavelmente o caminho a percorrer.
Cagdas Ozgenc