Em um problema em que estou trabalhando, tenho duas variáveis aleatórias, X e Y. Preciso descobrir o quão intimamente correlacionadas elas são, mas são de dimensões diferentes. A classificação do espaço da linha de X é 4350, e a classificação do espaço da linha de Y é substancialmente maior, nas dezenas de milhares. X e Y têm o mesmo número de colunas.
Preciso de uma medida de correlação entre as duas variáveis, e o r de Pearson exige que X e Y tenham dimensão igual (pelo menos R exige que os dois rv sejam).
Tenho alguma esperança de fazer uma correlação entre esses dois, ou devo encontrar alguma maneira de remover as observações de Y?
EDIT
Adicionando informações dos comentários, que devem estar na pergunta.
Suponho que esqueci de mencionar isso. X e Y são os preços das ações. A empresa X é pública há um período de tempo muito menor do que Y. Eu queria dizer como os preços de X e Y estão correlacionados. Eu definitivamente poderia obter uma correlação pelo período de tempo em que X e Y existem. Eu queria saber se, ao saber dos preços das ações por vários anos extras de Y, que X não existia, rendi-me qualquer informação adicional.
fonte
Respostas:
Nenhuma quantidade de imputação, análise de séries temporais, modelos GARCH, interpolação, extrapolação ou outros algoritmos sofisticados fará qualquer coisa para criar informações onde elas não existem (embora elas possam criar essa ilusão ;-). A história do preço de Y antes de X tornar-se público é inútil para avaliar sua correlação subsequente.
Às vezes, os analistas (geralmente preparatórios para uma abertura de capital) usam informações contábeis internas (ou registros de transações com ações privadas) para reconstruir retrospectivamente preços hipotéticos para as ações de X antes de serem abertas. É concebível que essas informações possam ser usadas para aprimorar as estimativas de correlação, mas, dada a natureza extremamente tentativa de tais backcasts, duvido que o esforço seja de alguma ajuda, exceto inicialmente quando houver apenas alguns dias ou semanas de preços para X disponíveis.
fonte
Portanto, o problema é um dos dados ausentes (nem todos os Y têm um X correspondente, onde a correspondência é operacionalizada por meio de pontos no tempo). Acho que não há muito o que fazer aqui, apenas jogar fora o Y para o qual você não tem um X e calcular a correlação nos pares completos.
Você pode ler sobre séries temporais financeiras, embora eu não tenha uma boa referência à mão neste momento (ideias, alguém?). Os preços das ações geralmente apresentam volatilidades variáveis no tempo, que podem ser modeladas, por exemplo, pela GARCH . É possível que suas duas séries temporais X e Y exibam correlações positivas durante períodos de baixa volatilidade (quando a economia cresce, todos os preços das ações tendem a aumentar), mas correlações negativas quando a volatilidade geral é alta (em 11 de setembro, as companhias aéreas afundaram enquanto dinheiro fugiu para investimentos mais seguros). Portanto, apenas o cálculo de uma correlação geral pode depender muito do seu período de observação.
ATUALIZAÇÃO: Eu acho que você pode querer olhar para os modelos VAR (vetor autoregressivo) .
fonte
A Jeremy Anglim especificou isso corretamente. Ter informações extras quando apenas uma das séries temporais não forneceria valor aqui. E, em princípio, os dados devem ser amostrados ao mesmo tempo para que sejam significativos usando medidas de correlação convencionais.
Como um problema mais geral, eu acrescentaria que existem técnicas para lidar com dados de séries temporais com espaçamento irregular. Você pode procurar por "correlação de séries temporais com espaçamento irregular". Parte do trabalho recente foi realizado sobre "Volatilidade e correlação realizadas" (Andersen, Bollerslev, Diebold e Labys 1999) usando dados de alta frequência.
fonte
Dadas as informações extras em seus comentários, recomendo analisar duas correlações. O primeiro seria o período de tempo comum em que as duas empresas estavam por perto. Portanto, se um acontecesse cerca de 2 anos antes, você simplesmente soltaria esses dados e examinaria o resto. O segundo seria o período de tempo relativo. No segundo, você não está correlacionando o tempo real, mas o tempo medido desde que a empresa foi aberta.
O primeiro seria fortemente influenciado por forças econômicas gerais compartilhadas no mesmo período. Este último seria influenciado por propriedades compartilhadas pelas empresas à medida que elas mudam após o IPO.
fonte
Outra maneira de resolver esse problema é imputar os dados ausentes para as séries mais curtas usando um modelo de série temporal que pode ou não fazer sentido em um contexto específico.
No seu contexto, imputar os preços das ações no passado significaria que você está fazendo a seguinte pergunta contra-factual: Qual seria o preço das ações da empresa X se ela fosse pública há n anos no passado, e não quando realmente fosse pública? Essa imputação de dados pode ser feita levando em consideração os preços das ações de empresas relacionadas, tendências gerais do mercado etc. Mas, essa análise pode não fazer sentido ou pode não ser necessária, considerando os objetivos do seu projeto.
fonte
Bem, depende muito das suposições que você faz. Se você presumir que os dados são estacionários, mais dados da série um fornecerão uma estimativa melhor de sua volatilidade. Essa estimativa pode ser usada para melhorar a estimativa de correlação. Portanto, a seguinte declaração está incorreta:
"A história do preço de Y antes que X se tornasse público é inútil para avaliar sua correlação subsequente"
fonte
Isso soa como um problema para um algoritmo de aprendizado de máquina. Portanto, eu tentaria descobrir um conjunto de características que descrevem um certo aspecto da tendência e treinar isso. Toda a teoria do aprendizado de máquina é um pouco complexa para essa caixa de respostas, mas seria útil que você a lesse.
Mas honestamente, acho que já existe por aí. Onde é possível ganhar dinheiro, as pessoas colocam sua mente nele.
fonte