Estou usando o PCA para analisar várias séries temporais espacialmente relacionadas, e parece que o primeiro vetor próprio corresponde à derivada da tendência média da série (exemplo ilustrado abaixo). Estou curioso para saber por que o primeiro vetor próprio se relaciona com a derivada da tendência em oposição à própria tendência?
Os dados são organizados em uma matriz onde as linhas são as séries temporais de cada entidade espacial e as colunas (e por sua vez as dimensões no PCA) são os anos (ou seja, no exemplo abaixo, 10 séries temporais a cada 7 anos). Os dados também são centralizados antes da PCA.
Stanimirovic et al., 2007 chegaram à mesma conclusão, mas a explicação deles está um pouco além do meu entendimento da álgebra linear.
[Update] - adicionando dados conforme sugerido.
[Update2] - RESPONDIDO. Eu descobri que meu código estava incorretamente usando a transposição da matriz de vetor próprio ao plotar resultados ( excel_walkthrough ) (obrigado @amoeba). Parece que é apenas uma coincidência que a relação transpose-autovetor / derivado exista para essa configuração específica. Conforme descrito matematicamente e intuitivamente neste post, o primeiro vetor próprio se relaciona de fato com a tendência subjacente e não com sua derivada .
fonte
Respostas:
Vamos ignorar a centralização da média por um momento. Uma maneira de entender os dados é visualizar cada série temporal como sendo aproximadamente um múltiplo fixo de uma "tendência" geral, que por si só é uma série temporal (com o número de períodos). Vou me referir a isso abaixo como "tendo uma tendência semelhante".x=(x1,x2,…,xp)′ p=7
Escrevendo para esses múltiplos (com o número de séries temporais), a matriz de dados é aproximadamenteϕ=(ϕ1,ϕ2,…,ϕn)′ n=10
Os autovalores de PCA (sem centralização média) são os autovalores de
porque é apenas um número. Por definição, para qualquer valor próprio e qualquer vetor próprio correspondente ,ϕ′ϕ λ β
onde mais uma vez o número pode ser comutado com o vetor . Seja o maior valor próprio, portanto (a menos que todas as séries temporais sejam idênticas a zero o tempo todo) .x λ λ > 0x′β x λ λ>0
Como o lado direito de é um múltiplo de o lado esquerdo é um múltiplo diferente de zero de , o vetor próprio deve ser um múltiplo de .x β β x(1) x β β x
Em outras palavras, quando um conjunto de séries temporais está em conformidade com esse ideal (que são todos múltiplos de uma série temporal comum),
Existe um autovalor positivo único no PCA.
Existe um espaço próprio exclusivo correspondente, abrangido pela série temporal comum .x
Coloquialmente, (2) diz que "o primeiro vetor próprio é proporcional à tendência".
"Centralização média" no PCA significa que as colunas estão centralizadas. Como as colunas correspondem aos tempos de observação da série temporal, isso equivale a remover a tendência temporal média, definindo separadamente a média de todas as séries temporais como zero em cada um dos tempos . Assim, cada série temporal é substituída por um residual , em que é a média do . Mas esta é a mesma situação de antes, simplesmente substituindo o pelos desvios do valor médio. p ϕ i x ( ϕ i - ˉ ϕ ) x ˉ ϕ ϕ i ϕn p ϕix (ϕi−ϕ¯)x ϕ¯ ϕi ϕ
Por outro lado, quando há uma única grande valor próprio no APC, pode-se reter um único componente principal e aproximar de perto a matriz de dados original . Assim, esta análise contém um mecanismo para verificar sua validade:X
Esta conclusão se aplica tanto ao PCA nos dados brutos quanto ao PCA nos dados centralizados (coluna) médios.
Permita-me ilustrar. No final deste post, há umx ϕ
R
código para gerar dados aleatórios de acordo com o modelo usado aqui e analisar seu primeiro PC. Os valores de e são qualitativamente prováveis aqueles mostrados na pergunta. O código gera duas linhas de gráficos: um "scree plot" mostrando os autovalores classificados e um plot dos dados utilizados. Aqui está um conjunto de resultados.ϕOs dados brutos aparecem no canto superior direito. O gráfico de seixos no canto superior esquerdo confirma que o maior autovalor domina todos os outros. Acima dos dados, plotei o primeiro vetor próprio (primeiro componente principal) como uma linha preta grossa e a tendência geral (a média do tempo) como uma linha vermelha tracejada. Eles são praticamente coincidentes.
Os dados centralizados aparecem no canto inferior direito. Você agora a "tendência" nos dados é uma tendência de variabilidade e não de nível. Embora o gráfico do scree esteja longe de ser bom - o maior valor próprio não predomina mais -, no entanto, o primeiro vetor próprio faz um bom trabalho ao traçar essa tendência.
fonte
A derivada dos dados (~ primeira diferença) remove as dependências pontuais nos dados que são devidas à não-estacionariedade (cf. ARIMA). O que você recupera é aproximadamente o sinal estacionário estável, que eu acho que o SVD está se recuperando.
fonte