O mito da previsibilidade no horizonte longo

8

Recentemente, deparei com um artigo fascinante sobre a previsão de retornos futuros do mercado de ações. O autor apresenta o gráfico abaixo e cita um R ^ 2 de 0,913. Isso tornaria o método do autor muito superior a qualquer coisa que eu já vi sobre o assunto (a maioria argumenta que o mercado de ações é imprevisível).

insira a descrição da imagem aqui

O autor descreve seu método detalhadamente e fornece uma teoria substancial para fazer backup dos resultados. Depois, li um segundo artigo crítico que referenciou este artigo: O mito da previsibilidade no horizonte longo . Aparentemente, as pessoas caem nessa ilusão há décadas. Infelizmente, eu realmente não entendo o jornal.

Isso me leva às seguintes perguntas:

  • A falsa confiança das previsões de longo prazo ocorre devido ao uso do mesmo conjunto de dados para validação de treinamento e modelo? O problema desapareceria se os dados de treinamento e validação fossem extraídos de períodos de tempo separados e sem sobreposição?
  • Além de validar o conjunto de treinamento, por que esse problema se torna mais pronunciado em horizontes mais longos?
  • Em geral, como posso superar esse problema ao treinar modelos que precisam fazer previsões de longo prazo?
Ryan Zotti
fonte
1
Não tenho certeza se você se deparou com esta discussão no CV, onde mencionei alguns trabalhos sobre esse tópico. stats.stackexchange.com/questions/294489/...
horaceT

Respostas:

4

Penso que uma resposta simples é que não se deseja medir R ^ 2 na escala original das séries temporais. Se a previsão de uma pessoa é apenas uma cópia do último valor visto das séries temporais, o R ^ 2 seria enorme. Exemplo:

insira a descrição da imagem aqui

Isso pode ser chamado de caso espúrio. Estou recebendo o valor 0,96, enquanto essa previsão é totalmente besteira.

R ^ 2 dará um valor honesto se tiver sido medido usando tempos estacionários, por exemplo, primeiras diferenças de y e y-hat.

Alexey Burnakov
fonte
1

O problema não surge porque estamos usando o mesmo conjunto de dados para treinamento e validação. Surge devido ao efeito da persistência das variáveis ​​na ampliação de erros de amostragem e pequenos efeitos em horizontes de tempo mais longos. Conforme declarado no artigo, mesmo que você não possa prever retornos futuros do mercado de ações a partir de sua variável de interesse, esperamos queR2 e coeficientes de regressão sejam aproximadamente proporcionais ao horizonte de tempo se as variáveis ​​forem persistentes. Isso ocorre porque (pág. 1584):

tkk

tt1t2tk

kR2k=40R2

Chris Novak
fonte