Estou vendo um modelo de regressão que está regredindo os retornos ano-a-ano do índice de ações com atraso (12 meses) retornos ano-a-ano do mesmo índice de ações, spread de crédito (diferença entre a média mensal de títulos sem risco e títulos corporativos YoY - taxa de inflação e índice YoY da produção industrial.
Parece assim (embora você substitua os dados específicos da Índia neste caso):
SP500YOY(T) = a + b1*SP500YOY(T-12) + b2*CREDITSPREAD(T) +
b4*INDUSTRIALPRODUCTION(T+2) + b3*INFLATION(T+2) + b4*INFLATIONASYMM(T+2)
SP500YOY é o retorno anual do índice SP500 Para calcular isso, a média mensal dos valores do SP500 é calculada e depois convertida em retornos ano a ano para cada mês (por exemplo, jan'10-jan'11, fev'10- Fev'11, mar'10-mar'11,.). No lado das variáveis explicativas, um valor de atraso de 12 meses do SP500YOY é usado junto com o CREDITSPREAD no tempo T e INFLATION e INDUSTRIALPRODUCTION dois períodos à frente. O INFLATIONASYMM é um manequim para saber se a inflação está acima de um valor limite de 5,0%. O índice entre parênteses mostra o índice de tempo para cada variável.
Isso é estimado por regressão linear OLS padrão. Para usar esse modelo para prever os retornos YOY de 1,2 e 3 meses à frente do SP500, é necessário gerar previsões à frente de 3,4 e 5 meses para a inflação e o índice de produção industrial. Essas previsões são feitas após o ajuste de um modelo ARIMA para cada um dos dois individualmente. As previsões do CreditSpread para 1,2 e 3 meses à frente são lançadas como estimativas mentais.
Gostaria de saber se essa regressão linear do OLS é correta / incorreta, eficiente / ineficiente ou prática estatística geralmente válida.
O primeiro problema que vejo é o uso de dados sobrepostos. ou seja, os valores diários do índice de ações são calculados em média todos os meses e depois usados para calcular retornos anuais que são acumulados mensalmente. Isso deve fazer com que o termo de erro seja correlacionado automaticamente. Eu pensaria que seria necessário usar alguma 'correção' nas linhas de um dos seguintes:
- Estimador de covariância consistente de heterocedasticidade de White
- Estimador de heterocedasticidade e autocorrelação consistente (HAC) de Newey & West
- versão consistente de heterocedasticidade de Hansen & Hodrick
Realmente faz sentido aplicar a regressão linear OLS padrão (sem correções) a esses dados sobrepostos e, mais ainda, usar previsões ARIMA de três períodos à frente para variáveis explicativas a serem usadas na regressão linear OLS original para prever SP500YOY? Eu nunca vi essa forma antes e, portanto, não posso realmente julgá-la, sem a exceção de corrigir o uso de observações sobrepostas.
fonte
Respostas:
Aqui estão alguns artigos que tratam desse assunto:
Britten-Jones e Neuberger, Inferência e estimativa aprimoradas em regressão com observações sobrepostas
Harri & Brorsen, o problema de sobreposição de dados
fonte