A Análise de Componentes Principais pode ser usada nos preços das ações / dados não estacionários?

10

Estou lendo um exemplo dado no livro Machine Learning for Hackers . Primeiro vou elaborar o exemplo e depois falar sobre minha pergunta.

Exemplo :

Toma um conjunto de dados por 10 anos com preços de 25 ações. Executa o PCA nos 25 preços das ações. Compara o componente principal com o Índice Dow Jones. Observa uma forte semelhança entre PC e DJI!

Pelo que entendi, o exemplo é mais um brinquedo para ajudar novatos como eu a entender a eficácia de uma ferramenta PCA!

No entanto, lendo de outra fonte , vejo que os preços das ações não são estacionários e a execução de PCA nos preços das ações é absurda. As fontes de onde li ridicularizaram totalmente a idéia de calcular a covariância e o PCA para os preços das ações.

Perguntas :

  1. Como o exemplo funcionou tão bem? O PCA dos preços das ações e o DJI estavam muito próximos um do outro. E os dados são dados reais dos preços das ações de 2002 a 2011.

  2. Alguém pode me indicar algum recurso interessante para ler dados estacionários / não estacionários? Sou programador. Eu tenho uma boa formação matemática. Mas eu não faço matemática séria há 3 anos. Comecei a ler novamente sobre coisas como passeios aleatórios etc.

claudius
fonte

Respostas:

10

Esta parte serve para responder parcialmente à pergunta original e a algumas das perguntas levantadas nos comentários à resposta de @ JonEgil.

i.i.d.i.i.d.i.i.d.. É por isso que faz sentido executar o PCA em retornos (logarítmicos) e não em preços.

i.i.d.

Ptr:=log(Pt)log(Pt1)=logPtPt1r:=PtPt1Pt1hh

Richard Hardy
fonte
11
f(ti)logf(ti+1)f(ti)
11
@amoeba, adicionei uma explicação rápida e tenho que sair agora. Espero não ter cometido muitos erros por lá. Voltarei amanhã se houver mais problemas.
Richard Hardy
11
Obrigado. Vejo agora que retornos (retornos logarítmicos) são essencialmente uma derivada (primeira diferença) do logaritmo de preços. Portanto, se a alegação é de que os retornos são iid e os preços dos logs são caminhadas aleatórias, faz sentido. No entanto, ainda estou surpreso com o exemplo da Dow Jones e gostaria de receber mais esclarecimentos.
Ameba
6

Eu executo esses tipos de análise profissionalmente e posso confirmar que eles são realmente úteis. Mas lembre-se de analisar os retornos, não os preços. Isso também é destacado pela crítica em Slender Means:

To perform PCA, your data have to have a meaningful covariance matrix 
(or correlation matrix, but the conditions are equivalent). They analyze 
stock prices, which are non-stationary time series variables.

Um caso típico de uso em nossa análise é quantificar o risco sistêmico no mercado. Quanto mais co-movimento no mercado, menos diversificação você realmente tem em seu portfólio. Por exemplo, isso pode ser quantificado pela quantidade de variação descrita pelo primeiro componente principal. O qual é idêntico ao valor do primeiro valor próprio.

Para dados financeiros, normalmente se examina uma janela em movimento ao longo do tempo. É útil alguma forma de fator de decaimento que reduz o peso das observações mais antigas. Para dados diários, de 20 a 60 dias, para dados semanais, talvez de 1 a 2 anos, tudo dependendo de suas necessidades.

Observe que, para os mercados financeiros globais, com dezenas ou centenas de milhares de preços de ativos mudando continuamente, um típico não pode executar uma matriz de covariância de 100 mil vs 100 mil. Em vez disso, o caso típico é executar a análise por país, setor ou outros grupos mais significativos. Como alternativa, divida o retorno por um conjunto de fatores subjacentes (valor, tamanho, qualidade, crédito ...) e faça a análise PCA / Covariância sobre eles.

Alguns artigos interessantes incluem a discussão de Attilio Meucci sobre o número efetivo de apostas: http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1358533

, e também Ledoit e Wolf's Honey I encolhi a matriz de covariância de amostra http://www.math.umn.edu/~bemis/MFM/2014/spring/References/lw_shrinkage.pdf

Para uma introdução financeira à estacionariedade, por que não começar pela Investopedia. Não é rigoroso, mas transmite as idéias principais.

Boa sorte!

EDIT: Aqui está um exemplo de três ações que mostra Apple, Google e Dow Jones com retornos diários até 2015. O triângulo superior mostra correlação de retorno, o triângulo inferior mostra correlação de preços.

Correlação de retorno do triângulo superior, correlação de preço do triângulo inferior

Como pode ser visto, a Apple tem uma correlação de preços mais alta com a Dow (0,76 à esquerda) do que uma correlação de retorno (0,66 à direita). O que podemos aprender com isso? Não muito. O Google tem uma correlação negativa de preços com a Apple (-0,28) e a Dow (-0,27). Novamente, não há muito a aprender com isso. No entanto, as correlações de retorno nos dizem que a Apple e o Google têm uma correlação bastante alta com o Dow (0,66 e 0,53, respectivamente). Isso nos diz algo sobre o co-movimento (variação de preço) de ativos em um portfólio. Essa é uma informação útil.

O ponto principal é que, embora a correlação de preços possa ser facilmente calculada, ela não é interessante. Por quê? Porque o preço de uma ação não é interessante por si só. A mudança de preço , no entanto, é muito interessante.

Jon Egil
fonte
Você pode, por favor, expandir mais a parte principal da questão, que é a diferença entre usar preços x retornos? Entendo que, ao usar preços, a matriz de correlação será influenciada pelas não estacionaridades; por exemplo, se todos os preços crescerem linearmente, todas as correlações serão fortemente positivas. Primeiro, por que isso é ruim? Em particular, considerando que a Dow Jones é essencialmente um preço médio e também aumentará (como o PC1 aumentará). Segundo, como o uso de retornos deve ajudar? "Retornos" AFAIK são proporções registradas de pontos vizinhos; por que é significativo e como está relacionado ao Dow Jones?
Ameba
Obrigado pela sua resposta informativa. Mas isso não responde à minha pergunta. Quero entender por que a análise de preço está funcionando muito bem para os dados do livro? E a ameba levantou muitas questões válidas.
Claudius
11
@claudius: O fato de o PCA nos preços dar algo semelhante à Dow Jones, que é o preço médio, não é de todo surpreendente. Estou imaginando por que o PCA nos retornos produz um ajuste melhor. Talvez Jon seja capaz de esclarecer.
Ameba
11
Eu não observei o código real executado no ML para hackers, mas sempre que alguém diz que analisa preços, 99 vezes de 100 o que eles realmente analisam é retornos de log. Por exemplo, hoje o Dow caiu 162 pontos, enquanto a Apple caiu 0,88 dólares. Os números não são apenas muito diferentes, eles também estão em uma escala diferente: pontos de índice versus dinheiro. Mas, em termos de pct, 0,91% e 0,75% são comparáveis ​​e os números com os quais você deseja trabalhar. Para algumas análises, pode-se retirar a tendência dos dados subtraindo a média. Em séries temporais financeiras de curto prazo, isso geralmente é ignorado, não assumindo tendência.
Jon Egil
11
@amoeba, Para (em parte) responder às perguntas levantadas nos comentários, os retornos são aproximadamente iid, enquanto os preços são aproximadamente passeios aleatórios. Os componentes principais têm suas boas propriedades sob a suposição de observações iid. É por isso que faz sentido executar o PCA com retornos e não com preços. Ruey S. Tsay defendeu a execução do PCA em resíduos de modelos econométricos de séries temporais financeiras, uma vez que os resíduos normalmente são considerados iid. Acho que isso pode ser incluído em algum lugar em seu livro "Análise multivariada de séries temporais com aplicações financeiras e financeiras".
Richard Hardy