Estou lendo um exemplo dado no livro Machine Learning for Hackers . Primeiro vou elaborar o exemplo e depois falar sobre minha pergunta.
Exemplo :
Toma um conjunto de dados por 10 anos com preços de 25 ações. Executa o PCA nos 25 preços das ações. Compara o componente principal com o Índice Dow Jones. Observa uma forte semelhança entre PC e DJI!
Pelo que entendi, o exemplo é mais um brinquedo para ajudar novatos como eu a entender a eficácia de uma ferramenta PCA!
No entanto, lendo de outra fonte , vejo que os preços das ações não são estacionários e a execução de PCA nos preços das ações é absurda. As fontes de onde li ridicularizaram totalmente a idéia de calcular a covariância e o PCA para os preços das ações.
Perguntas :
Como o exemplo funcionou tão bem? O PCA dos preços das ações e o DJI estavam muito próximos um do outro. E os dados são dados reais dos preços das ações de 2002 a 2011.
Alguém pode me indicar algum recurso interessante para ler dados estacionários / não estacionários? Sou programador. Eu tenho uma boa formação matemática. Mas eu não faço matemática séria há 3 anos. Comecei a ler novamente sobre coisas como passeios aleatórios etc.
fonte
Eu executo esses tipos de análise profissionalmente e posso confirmar que eles são realmente úteis. Mas lembre-se de analisar os retornos, não os preços. Isso também é destacado pela crítica em Slender Means:
Um caso típico de uso em nossa análise é quantificar o risco sistêmico no mercado. Quanto mais co-movimento no mercado, menos diversificação você realmente tem em seu portfólio. Por exemplo, isso pode ser quantificado pela quantidade de variação descrita pelo primeiro componente principal. O qual é idêntico ao valor do primeiro valor próprio.
Para dados financeiros, normalmente se examina uma janela em movimento ao longo do tempo. É útil alguma forma de fator de decaimento que reduz o peso das observações mais antigas. Para dados diários, de 20 a 60 dias, para dados semanais, talvez de 1 a 2 anos, tudo dependendo de suas necessidades.
Observe que, para os mercados financeiros globais, com dezenas ou centenas de milhares de preços de ativos mudando continuamente, um típico não pode executar uma matriz de covariância de 100 mil vs 100 mil. Em vez disso, o caso típico é executar a análise por país, setor ou outros grupos mais significativos. Como alternativa, divida o retorno por um conjunto de fatores subjacentes (valor, tamanho, qualidade, crédito ...) e faça a análise PCA / Covariância sobre eles.
Alguns artigos interessantes incluem a discussão de Attilio Meucci sobre o número efetivo de apostas: http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1358533
, e também Ledoit e Wolf's Honey I encolhi a matriz de covariância de amostra http://www.math.umn.edu/~bemis/MFM/2014/spring/References/lw_shrinkage.pdf
Para uma introdução financeira à estacionariedade, por que não começar pela Investopedia. Não é rigoroso, mas transmite as idéias principais.
Boa sorte!
EDIT: Aqui está um exemplo de três ações que mostra Apple, Google e Dow Jones com retornos diários até 2015. O triângulo superior mostra correlação de retorno, o triângulo inferior mostra correlação de preços.
Como pode ser visto, a Apple tem uma correlação de preços mais alta com a Dow (0,76 à esquerda) do que uma correlação de retorno (0,66 à direita). O que podemos aprender com isso? Não muito. O Google tem uma correlação negativa de preços com a Apple (-0,28) e a Dow (-0,27). Novamente, não há muito a aprender com isso. No entanto, as correlações de retorno nos dizem que a Apple e o Google têm uma correlação bastante alta com o Dow (0,66 e 0,53, respectivamente). Isso nos diz algo sobre o co-movimento (variação de preço) de ativos em um portfólio. Essa é uma informação útil.
O ponto principal é que, embora a correlação de preços possa ser facilmente calculada, ela não é interessante. Por quê? Porque o preço de uma ação não é interessante por si só. A mudança de preço , no entanto, é muito interessante.
fonte