Lidando com dados ausentes ao testar o CAPM

5

Questão

Como devo lidar com dados perdidos ao tentar testar o CAPM? Especificamente, existem algumas ações recém-listadas e / ou excluídas a qualquer momento. Não quero excluir recursos para os quais não possuo dados completos, pois isso criaria um tipo de viés de sobrevivência. Eu sei que o CRSP fornece retornos de fechamento que devem, mas como gerencio os dados ausentes na prática? Por exemplo, no modelo irrestrito, o procedimento é assim:

enter image description here

(Mais detalhes sobre o procedimento são fornecidos abaixo.) Agora, se eu quisesse pegar um monte de ações aleatórias em algum momento e olhar para elas durante algum período de tempo, o que eu deveria fazer com os valores ($ Z_it $) para essas ações que não estão listadas no momento $ t $. Devo usar os retornos de retirada de lista quando apropriado e preencher os zeros em todos os lugares? Mas isso faria coisas estranhas ao beta do estoque. Devo tentar restringir o beta (as cargas fatoriais) das ações a zero em todos os locais onde a ação não está listada? Isso exigiria que eu mudasse o modelo (exigindo um modelo que de alguma forma permita cargas fatoriais variáveis ​​no tempo). Como as pessoas geralmente lidam com esse problema? Existe uma maneira fácil (mesmo que seja um pouco mais incorreta)?

Alguns detalhes sobre o procedimento de estimativa

Para a concretude, suponha que eu queira testar o CAPM usando a estrutura de regressão de séries temporais descrita no capítulo 6 de Campbell, Lo e MacKinley (The Econometrics of Financial Markets). Algumas das suposições são listadas nesta imagem: enter image description here

jmbejara
fonte
O problema é que os fatores (lado direito Zkt) às vezes não são observados? Ou será que os retornos (elementos do lado esquerdo do Zt) podem ser observados?
BKay
O problema é $ Z_t $. Algumas ações são recém-listadas, algumas excluídas, etc. Se eu incluir apenas ações para as quais possuo dados para o período integral (para o qual existem durante todo o período), introduzo viés de sobrevivência.
jmbejara

Respostas:

4

Correção mais fácil: se você está preocupado com isso, você deve valor ponderar seus resultados . Isto é sugerido, por exemplo, Kothari, Shanken e Sloan (1995) . As empresas excluídas tendem a ter um limite de mercado extremamente pequeno, portanto, a ponderação de valor dá a elas um impacto muito pequeno nas estatísticas de resumo. Retornos excluídos também devem ser usados, embora eu não tenha certeza de quanto impacto eles terão. Eu vi o retorno de fechamento preso no mês depois que uma ação deixa de ser negociada.

Ao encontrar $ \ beta $ ', costumo ver a regressão usada apenas nas datas em que o retorno das ações é observado. A correção realmente vem em estatísticas de resumo de ponderação de valor depois. Se tudo isso é "correto" ou apenas a prática que eu vi não é algo que eu tenho certeza.

Editar: aqui está um perspectiva diferente .

jayk
fonte
Obrigado pelos excelentes links. Estou ansioso para lê-los mais detalhadamente. Apenas uma pergunta sobre o comentário sobre o uso dos retornos excluídos. Você está falando sobre fazer isso no contexto de uma abordagem de regressão do tipo Fama-Macbeth? Não tenho certeza de como isso se encaixa na abordagem de série temporal de máxima probabilidade descrita acima. Quero dizer, não é grande coisa, só estou curioso se é isso que você quer dizer.
jmbejara
Não particularmente. Eu acho que o mesmo procedimento de ponderação de valor poderia ser usado para qualquer procedimento que você deseja. Para o MLE, basta alterar ligeiramente o cálculo da sua probabilidade. Estes se parecem com GMM embora? Em qualquer caso, a ponderação de valor ainda pode ser feita.
jayk
1

Minha sugestão para você, e esta é uma técnica muito geral quando você não tem certeza de qual método usar, é deixar validação cruzada diga qual método funciona melhor.

Eu imagino que você tenha algumas opções:

  • Não inclui nenhuma linha com observações ausentes
  • Atribuir algum peso arbitrário (no seu caso, aqueles com composto com a matriz assumida $ \ Omega $, e se você estiver usando alguma regressão não linear para estimar $ \ hat {\ Omega} $ então boa sorte)
  • Use a substituição de média ou alguma outra estratégia de espaço reservado

Mas o problema fundamental é que você não sabe quais fatores tornaram alguns dados indisponíveis, ou seja, você não sabe $ \ text {Probabilidade} (\ text {Falta}) $ e suspeita que não seja ruído branco.

A melhor maneira é permitir que os dados gerem seus resultados. Execute todos esses métodos em 80% dos dados, verifique o erro de previsão nos 20% restantes e embaralhe esses grupos, use o erro médio de previsão e selecione o método que forneceu o menor erro de previsão.

CarrKnight
fonte
Não tenho certeza se a validação cruzada ajudaria aqui. Do meu ponto de vista, a questão não é obter o melhor ajuste por qualquer definição empírica de melhor (o que é válido para a validação cruzada). Em vez disso, a questão para mim é o que devemos adequado para capturar um conceito econômico (preços de fatores), que a validação cruzada não ajudará.
jayk
A validação cruzada não está lá para obter o melhor ajuste, está lá para escolher entre modelos / famílias funcionais. Aqui o modelo de regressão é fixo, mas o modelo para corrigir os dados perdidos não é, e acho que a validação cruzada é uma maneira muito válida de decidir entre eles.
CarrKnight
Mas o critério pelo qual você julga modelos é seu ajuste. A validação cruzada é sobre regressões preditivas. Se você estivesse tentando apenas prever os preços das ações, estaria certo sobre isso. Mas você está testando um modelo econômico, não fazendo previsões. Eu estaria disposto a apostar que um bom ajuste de teste viria (basicamente) excluindo as ações com falências. Mas isso não necessariamente corresponderia a um bom teste do modelo econômico, já que as falências podem ser algo que devemos levar em conta ao comprar ações. Você precisa de um critério de validação cruzada não apresenta para julgar isso.
jayk