Como interpretar o PCA em dados de séries temporais?

Estou tentando entender o uso do PCA em um artigo recente em uma revista intitulado "Mapeando a atividade cerebral em escala com computação em cluster" Freeman et al., 2014 (pdf gratuito disponível no site do laboratório ). Eles usam o PCA em dados de séries temporais e usam os pesos do PCA para criar um mapa do cérebro.

Os dados são dados de imagem com média de avaliação, armazenados como uma matriz (chamada no artigo) com voxels (ou locais de imagem no cérebro) points (a duração de um único estimulação para o cérebro). $\hat {\mathbf Y}$ $n$ $\times \hat t$

Eles usam o SVD resultante em ( indicando a transposição da matriz ).

\hat{Y} = {U S V}^{⊤}

$\hat {\mathbf Y} = \mathbf{USV}^\top$

V^{⊤}

$\mathbf V^\top$

V

$\mathbf V$

Os autores afirmam que

Os componentes principais (as colunas de ) são vetores de comprimento , e as pontuações (as colunas de ) são vetores de comprimento (número de voxels), descrevendo a projeção de cada voxel na direção dada pelo componente correspondente, formando projeções no volume, ou seja, mapas do cérebro inteiro. $\mathbf V$ $\hat t$ $\mathbf U$ $n$

Portanto, os PCs são vetores de comprimento . Como posso interpretar que o "primeiro componente principal explica a maior variação", como é comumente expresso nos tutoriais do PCA? Começamos com uma matriz de muitas séries temporais altamente correlacionadas - como uma única série temporal de PC explica a variação na matriz original? Entendo toda a coisa "rotação de uma nuvem gaussiana de pontos para o eixo mais variado", mas não tenho certeza de como isso se relaciona com as séries temporais. O que os autores querem dizer com direção quando afirmam: "as pontuações (as colunas de ) são vetores de comprimento $\hat t$ $\mathbf U$ $n$ (número de voxels), descrevendo a projeção de cada voxel na direção dada pelo componente correspondente "? Como um curso do componente principal pode ter uma direção?

Para ver um exemplo das séries temporais resultantes das combinações lineares dos componentes principais 1 e 2 e o mapa cerebral associado, vá para o link a seguir e passe o mouse sobre os pontos no gráfico XY.

Freman et al.

Minha segunda pergunta está relacionada às trajetórias (espaço de estado) que eles criam usando as pontuações dos componentes principais.

Eles são criados com base nas primeiras 2 pontuações (no caso do exemplo "optomotor" que descrevi acima) e projetamos as tentativas individuais (usadas para criar a matriz média de tentativas descrita acima) no subespaço principal pela equação:

J = U^{⊤} Y .

$\mathbf J = \mathbf U^\top \mathbf Y.$

Como você pode ver pelos filmes vinculados, cada traço no espaço de estados representa a atividade do cérebro como um todo.

Alguém pode fornecer a intuição para o significado de cada "quadro" do filme espacial, em comparação com a figura que associa o gráfico XY das pontuações dos 2 primeiros PCs. O que significa, em um determinado "quadro", que 1 tentativa do experimento esteja em 1 posição no espaço de estado XY e outra tentativa esteja em outra posição? Como as posições de plotagem XY nos filmes se relacionam com os principais rastreamentos de componentes na figura vinculada mencionada na primeira parte da minha pergunta?

Freeman et al.

time-series pca state-space-models neuroimaging neuroscience statHacker
fonte

+1 Editei sua pergunta, veja como é possível formatar as equações tex aqui. Além disso, eu conheço o jornal muito bem, então responderei mais tarde.

ameba diz Restabelecer Monica

Não é exatamente isso que o OP deseja, mas pode ser útil na interpretação dos principais componentes quando extraídos de dados de séries temporais, como faço isso o tempo todo. Eu geralmente gosto de interpretar o PCA como uma expansão de Karhunen-Loève: expressar uma determinada série temporal,

(as diferentes séries temporais às quais você aplica o PCA), como uma combinação linear de séries temporais não correlacionadas (ou seja, os principais componentes). Os pesos de cada série temporal neste caso são dados pelos vetores próprios obtidos a partir da matriz de covariância.

X_{t}

$X_t$

Néstor

(Veja isso para obter uma explicação mais aprofundada do meu argumento: astro.puc.cl/~nespino/files/Ch2_PCA_nespinoza.pdf )

Néstor

Adicionei à sua pergunta algumas capturas de tela às quais você estava se referindo.

Ameba diz Reinstate Monica

como você adicionou as fotos?

statHacker

Respostas:

Q1: Qual é a conexão entre séries temporais de PC e "variação máxima"?

Os dados que eles estão analisando são pontos de dados para cada um dos neurônios, assim pode-se pensar nisso como pontos de dados no espaço dimensional . É "uma nuvem de pontos", portanto, executar o PCA equivale a encontrar direções de variação máxima, como você bem sabe. Prefiro chamar essas direções (que são vetores próprios da matriz de covariância) de "eixos principais" e as projeções dos dados sobre essas direções de "componentes principais". $\hat t$ $n$ $\hat t$ $n$ $\mathbb R^n$

Quando análise de séries de tempo, a única adição a esta imagem é que os pontos são significativamente ordenada, ou numeradas (a partir de a em vez de ser simplesmente uma desordenada colecção de pontos. O que significa que, se levarmos taxa de um único neurônio disparando (que é uma coordenada no ), então os seus valores podem ser plotados em função do tempo. Da mesma forma, se tomarmos um PC (que é uma projecção de em alguns linha), em seguida, ele também tem valores e pode ser representada graficamente como uma função do tempo. Portanto, se os recursos originais são séries temporais, os PCs também são séries temporais. $1$ $\hat t$ $\mathbb R^n$ $\mathbb R^n$ $\hat t$

Concordo com a interpretação do @ Nestor acima: cada recurso original pode ser visto como uma combinação linear de PCs, e como os PCs não estão correlacionados entre si, pode-se pensar neles como funções básicas nas quais os recursos originais são decompostos. É um pouco como a análise de Fourier, mas em vez de usar uma base fixa de senos e cossenos, estamos encontrando a base "mais apropriada" para esse conjunto de dados em particular, no sentido de que primeiro o PC é o responsável pela maior variação, etc.

"Contabilizando a maior variação" aqui significa que, se você pegar apenas uma função básica (série temporal) e tentar aproximar todos os seus recursos, o primeiro PC fará o melhor trabalho. Portanto, a intuição básica aqui é que o primeiro PC é uma série temporal de funções básicas que se encaixa melhor em todas as séries temporais disponíveis, etc.

Por que essa passagem em Freeman et al. tão confuso?

$\hat{\mathbf Y}$

\hat{Y} = {U S V}^{⊤} .

$\hat {\mathbf Y} = \mathbf{USV}^\top.$

U

$\mathbf U$

R^{n}

$\mathbb R^n$

S V

$\mathbf{SV}$

\hat{t}

$\hat t$

A frase que você citou de Freeman et al. é bastante confuso:

$\mathbf V$ $\hat t$ $\mathbf U$ $n$

$\mathbf V$ $\mathbf U$ $n$ $\hat t$ $\hat t$ $\mathbf U$

Acho isso muito confuso e, portanto, sugiro ignorar a escolha de palavras, mas apenas observe as fórmulas. A partir deste ponto, continuarei usando os termos como eu quiser, não como Freeman et al. usa-os.

P2: Quais são as trajetórias do espaço de estados?

$\mathbf U$ $\hat{\mathbf Y}$ $\hat t$

$\mathbf Y$ $\hat t$

$\mathbf Y$

ameba diz Restabelecer Monica
fonte

Fiz essa pergunta como um comentário abaixo, mas talvez @amoeba possa ajudar? O primeiro vetor de pesos dos componentes principais é apenas a série temporal média em colapso em todos os voxels? Se fosse a média, resultaria nas menores pontuações para se ajustarem aos rastreamentos de dados individuais. -

statHacker

A resposta curta é não , geralmente não é a série temporal média, embora em muitos casos possa ser bem próxima. Como exemplo, pense em uma coleção de séries temporais que são todas as linhas retas com diferentes inclinações (positivas e negativas), todas passando pelo zero. Então a série temporal média fica em torno de zero constante. Mas o primeiro PC será forte linha linear. BTW, acho que essa é uma excelente pergunta e, se você quiser mais detalhes e / ou números, faça-a novamente (como uma pergunta separada). Apenas certifique-se de não duplicar nenhuma parte desta pergunta sobre Freeman et al .; faça-os separados.

Ameba diz Reinstate Monica

(ou qualquer outra pessoa interessada em uma resposta) - com relação ao Q2, o que você quer dizer com "projetar [cada avaliação] nos dois primeiros [PCs]". Matematicamente, é muito claro que U é um vetor de comprimento n voxels e, quando a matriz é multiplicada pelo comprimento n da matriz Y, atingimos uma redução de dimensionalidade nos primeiros 2 PCs. Você pode fornecer intuição com relação a U ser a matriz de pontuação (ou seja, a distância de cada voxel dos 2 primeiros PCs). Posso pensar em cada ponto no tempo de J como a média bidimensional da projeção de cada posição de voxels no gráfico bidimensional da 1ª imagem acima?

statHacker

U

$U$

U

$U$

S V

$\mathbf{SV}$

$p$ $\bf V$ $\hat t$

$\bf \hat Y$ $n \times \hat t$ $\bf U$ $n \times n$ $\bf V$ $\hat t \times \hat t$

Com relação à segunda questão. A equação dada é

$\bf J = \bf U^T Y$

$\bf J$ $\times t$

$t \ne \hat t$ $\bf J$

$\hat t$

Eu não lidei com a metodologia de coloração antes, e levaria um tempo antes que eu estivesse confiante para comentar sobre esse aspecto. Achei o comentário sobre a similaridade com a Fig 4c confuso, pois a coloração é obtida por meio de regressão per-voxel. Enquanto na Fig. 6 cada traço é um artefato de imagem inteira. A menos que eu seja sincero, acho que é a direção do estímulo durante esse segmento de tempo, conforme o comentário na Figura.

conjecturas
fonte

A primeira figura acima refere-se a um experimento com o mesmo estímulo visual apresentado todas as vezes. Há uma figura e um filme diferentes para esses dados. A segunda figura acima refere-se a um experimento diferente, no qual os estímulos são estímulos visuais com orientações diferentes; os traços da 2ª figura acima são coloridos para corresponder simplesmente a orientações de estímulos visuais diferentes.

statHacker

Y

$\mathbf Y$

\hat{T}

$\hat {\mathbf T}$

\n

$\n$

V

$\mathbf V$

S

$\mathbf S$

J = U^{⊤} Y .

$\mathbf J = \mathbf U^\top \mathbf Y.$

U

$\mathbf U$

Eu reorganizei as coisas. Desculpas, foi uma sobra de antes de eu resolver outra coisa.

conjeturas

Obrigado por toda sua ajuda. O primeiro vetor de pesos dos componentes principais é apenas a série temporal média em colapso em todos os voxels? Se fosse a média, resultaria nas menores pontuações para se ajustarem aos rastreamentos de dados individuais.

statHacker