Entendo que a Análise de Componentes Principais (PCA) pode ser aplicada basicamente para dados de seção transversal. O PCA pode ser usado para dados de séries temporais efetivamente, especificando o ano como variável de série temporal e executando o PCA normalmente? Descobri que o PCA dinâmico funciona para dados do painel e a codificação no Stata é projetada para dados do painel e não para séries temporais. Existe algum tipo específico de PCA que funcione com dados de séries temporais?
Atualizar. Deixe-me explicar em detalhes.
Atualmente, estou construindo um índice para infraestrutura na Índia com variáveis como comprimento de estrada, comprimento de rota ferroviária, capacidade de geração de eletricidade, número de assinantes de telefone etc. Eu tenho 12 variáveis por 22 anos em um país. Embora eu tenha revisado artigos que aplicam o PCA em séries temporais e até mesmo em dados de painel, o PCA foi desenvolvido para dados de seção transversal que pressupõem a suposição de iid. Os dados do painel e da seção transversal o violam e o PCA não leva em consideração a dimensão da série temporal. Vi o PCA dinâmico sendo aplicado apenas nos dados do painel. Quero saber se existe um PCA específico aplicado em séries temporais ou executando um PCA estático com o ano definido como variável de série temporal que fará o trabalho?
fonte
Respostas:
Uma abordagem poderia ser fazer as diferenças das 12 variáveis pela primeira vez para garantir a estacionariedade. Em seguida, calcule o matriz de covariância e realizar PCA sobre ele. Será algum tipo de PCA médio durante todo o período e não dirá nada sobre como os diferentes cronogramas afetam um ao outro. Mas poderia ser um bom ponto de partida.12×12
Se você também estiver interessado em decompor o domínio do tempo, consulte o SSA, conforme sugerido nos comentários.
Quando as séries são (presumidas) estacionárias, uma única matriz de covariância é significativa. Se seus dados forem integrados de uma ordem de 1 ou superior, como suspeito que possam ser, a estimativa de uma única matriz de covariância não produzirá resultados consistentes. Uma caminhada aleatória é, por exemplo, integrada na ordem 1, e a covariância estimada de duas caminhadas aleatórias não diz nada sobre o seu co-movimento, aqui a análise de co-integração é necessária.
Conforme sugerido nos comentários, o PCA por si só não se preocupa com a estacionariedade, portanto, você pode alimentar o PCA com qualquer matriz semi-definida positiva e a decomposição do PC ficará bem no sentido do PCA.
Mas se sua matriz de covariância estimada não representa nada significativo sobre os dados, o PCA, é claro, também não.
fonte
Sim, o PCA em séries temporais é realizado o tempo todo em engenharia financeira (finanças quantitativas) e neurologia.
Na neurologia, o PCA é executado em séries temporais para potenciais de ação em diferentes faixas de comprimento de onda obtidas de um EEG. Transformar os potenciais de ação em vetores de pontuação ortogonais (não correlacionados) e inserir os CPs em outras análises é o principal meio pelo qual o poder estatístico foi aumentado na modelagem genética estatística de características complexas da genética comportamental (desde fenótipos, por exemplo, bi-polar, novidade- esquizotípica, a esquizofrenia freqüentemente se sobrepõem). Os grandes estudos sobre gêmeos genéticos australianos foram fundamentais para analisar essas características sobrepostas na genética comportamental, porque, se houver diferenças de doenças entre gêmeos idênticos criados juntos (crescem na mesma casa), a inferência causal pode apontar para a exposição em diferentes ambientes quando eles eram mais velhos em vez de sua genética idêntica.
fonte