Análise funcional de componentes principais (FPCA): do que se trata?

21

A análise funcional de componentes principais (FPCA) é algo que me deparei com e nunca consegui entender. Sobre o que é tudo isso?

Veja "Uma pesquisa sobre análise funcional de componentes principais" de Shang, 2011 , e estou citando:

O PCA encontra sérias dificuldades na análise de dados funcionais devido à “maldição da dimensionalidade” (Bellman 1961). A “maldição da dimensionalidade” se origina da escassez de dados no espaço de alta dimensão. Mesmo que as propriedades geométricas do PCA permaneçam válidas e mesmo que as técnicas numéricas apresentem resultados estáveis, a matriz de covariância da amostra às vezes é uma estimativa pobre da matriz de covariância da população. Para superar essa dificuldade, o FPCA fornece uma maneira muito mais informativa de examinar a estrutura de covariância da amostra do que o PCA [...]

Eu simplesmente não entendo. Qual é a desvantagem que este artigo está descrevendo? O PCA não deveria ser o melhor método para lidar com situações como a “maldição da dimensionalidade”?

Dov
fonte

Respostas:

7

Exatamente, como você afirma na pergunta e como o @tdc coloca em sua resposta, no caso de dimensões extremamente altas, mesmo que as propriedades geométricas do PCA permaneçam válidas, a matriz de covariância não é mais uma boa estimativa da covariância real da população.


Há um artigo muito interessante "Análise funcional de componentes principais de dados de fMRI" ( pdf ) em que eles usam PCA funcional para visualizar a variação:

... Como em outras técnicas exploratórias, o objetivo é fornecer uma avaliação inicial que dê aos dados a chance de "falar por si mesmos" antes que um modelo apropriado seja escolhido. [...]

No artigo, eles explicam exatamente como o fizeram e também fornecem raciocínio teórico:

A vantagem decisiva dessa abordagem consiste na possibilidade de especificar um conjunto de suposições na escolha do conjunto de funções básicas e no erro funcional minimizado pelo ajuste. Essas suposições serão mais fracas que a especificação de uma função hemodinâmica pré-definida e um conjunto de eventos ou condições como no mascaramento F, preservando assim o caráter exploratório do procedimento; no entanto, as suposições podem permanecer rigorosas o suficiente para superar as dificuldades do PCA comum.

andreister
fonte
Estou lutando para entender a lógica por trás da FPCA; Eu olhei para o jornal que você citou, mas ainda permanece confuso. A configuração é que a matriz de dados é do tamanho com n séries temporais observadas de comprimento t n . Com o PCA, é possível encontrar o primeiro vetor próprio de t- longo da matriz de covariância; a alegação é que será muito barulhento. A solução FPCA é aproximar cada série cronológica com k funções básicas ( k t ) e executar o PCA no espaço funcional de base. Corrigir? Em caso afirmativo, como é diferente de suavizar cada série temporal e executar o PCA padrão? Por que um nome especial? n×tntntkkt
ameba diz Reintegrar Monica
Depois de ler um pouco mais sobre isso, decidi postar minha própria resposta. Talvez você esteja interessado. Certamente aprecio qualquer ideia adicional.
Ameba diz Reinstate Monica
24

Acho "PCA funcional" uma noção desnecessariamente confusa. Não é uma coisa separada, é um PCA padrão aplicado a séries temporais.

ntn×ttn201000t

Definitivamente, pode-se aplicar o PCA padrão aqui. Aparentemente, em sua citação, o autor está preocupado com o fato de a série temporal resultante ser muito barulhenta. Isso pode realmente acontecer! Duas maneiras óbvias de lidar com isso seriam: (a) suavizar as séries temporais de eigen resultantes após o PCA ou (b) suavizar as séries temporais originais antes de executar o PCA.

ktk

Os tutoriais sobre FPCA geralmente entram em longas discussões sobre como generalizar o PCA para os espaços funcionais de dimensionalidade infinita, mas a relevância prática disso está totalmente além de mim , pois na prática os dados funcionais são sempre discretizados para começar.

Aqui está uma ilustração tirada do livro didático de "Functional Data Analysis" de Ramsay e Silverman, que parece ser a monografia definitiva sobre "análise de dados funcionais", incluindo FPCA:

Ramsay e Silverman, FPCA

Pode-se ver que fazer PCA nos "dados discretizados" (pontos) produz praticamente o mesmo que fazer FPCA nas funções correspondentes na base de Fourier (linhas). É claro que se poderia primeiro fazer o PCA discreto e depois ajustar uma função na mesma base de Fourier; produziria mais ou menos o mesmo resultado.

t=12n>t

ameba diz Restabelecer Monica
fonte
2
No caso de trajetórias de amostra escassamente irregular (por exemplo, dados longitudinais), a FPCA é muito mais envolvida do que " interpolar e depois suavizar as séries temporais eigen resultantes ". Por exemplo, mesmo que alguém de alguma forma obtenha alguns componentes próprios calculando as pontuações da projeção de dados esparsos não está bem definido; veja por exemplo: Yao et al. JASA 2005. Concedido para processos com amostragem densamente regular O FPCA é efetivamente PCA com algumas penalidades de suavidade no topo.
usεr11852 diz Reinstate Monic
Obrigado, @ usεr11852 (+1). Preciso encontrar tempo para investigar novamente. Vou tentar procurar o artigo que você referenciou e voltar a esta resposta.
Ameba diz Reinstate Monica
@amoeba, tudo isso parece quase relacionado à transformação discreta de Fourier, onde você recupera ondas componentes de uma complexa onda / série temporal?
Russell Richie
9

Eu trabalhei por vários anos com Jim Ramsay no FDA, então talvez eu possa adicionar alguns esclarecimentos à resposta da @ amoeba. Eu acho que em um nível prático, @amoeba está basicamente certo. Pelo menos, essa é a conclusão que finalmente cheguei depois de estudar a FDA. No entanto, a estrutura da FDA fornece uma visão teórica interessante sobre por que suavizar os vetores próprios é mais do que apenas um argumento. Acontece que a otimização no espaço de função, sujeita a um produto interno que contém uma penalidade de suavidade, fornece uma solução dimensional finita de splines de base. O FDA usa o espaço funcional infinito dimensional, mas a análise não requer um número infinito de dimensões. É como o truque do kernel em processos gaussianos ou SVMs. É muito parecido com o truque do kernel, na verdade.

O trabalho original de Ramsay lidou com situações em que a história principal nos dados é óbvia: as funções são mais ou menos lineares, ou mais ou menos periódicas. Os autovetores dominantes do PCA padrão refletirão apenas o nível geral das funções e a tendência linear (ou funções senoidais), basicamente nos dizendo o que já sabemos. As características interessantes estão nos resíduos, que agora são vários vetores próprios do topo da lista. E como cada vetor próprio subsequente deve ser ortogonal aos anteriores, essas construções dependem cada vez mais dos artefatos da análise e menos dos recursos relevantes dos dados. Na análise fatorial, a rotação oblíqua do fator visa resolver este problema. A ideia de Ramsay não era rotacionar os componentes, mas antes mudar a definição de ortogonalidade de uma maneira que reflita melhor as necessidades da análise. Isso significava que, se você estivesse preocupado com componentes periódicos, suavizaria com base emD3DD2

Alguém pode argumentar que seria mais simples remover a tendência com o OLS e examinar os resíduos dessa operação. Eu nunca estava convencido de que o valor agregado do FDA valia a enorme complexidade do método. Mas, do ponto de vista teórico, vale a pena considerar as questões envolvidas. Tudo o que fazemos com os dados atrapalha as coisas. Os resíduos do OLS são correlacionados, mesmo quando os dados originais eram independentes. Suavizar uma série temporal introduz autocorrelações que não estavam na série bruta. A idéia do FDA era garantir que os resíduos que obtivemos do prejuízo inicial fossem adequados à análise de interesse.

Você deve se lembrar que o FDA se originou no início dos anos 80, quando as funções spline estavam em estudo ativo - pense em Grace Wahba e sua equipe. Muitas abordagens para dados multivariados surgiram desde então - como SEM, análise de curva de crescimento, processos gaussianos, desenvolvimentos adicionais na teoria do processo estocástico e muito mais. Não tenho certeza de que o FDA continue sendo a melhor abordagem para as questões abordadas. Por outro lado, quando vejo aplicações do que pretende ser o FDA, frequentemente me pergunto se os autores realmente entenderam o que o FDA estava tentando fazer.

Placidia
fonte
+1. Ops, notei sua resposta apenas agora e apenas por acaso (alguém deixou um comentário abaixo da minha resposta aqui e rolei para baixo). Muito obrigado por contribuir! Acho que preciso encontrar tempo para ler um pouco mais sobre isso e pensar sobre o que você disse sobre a semelhança com o truque do kernel. Parece razoável.
Ameba diz Reinstate Monica
5

Não tenho certeza sobre o FPCA, mas uma coisa a lembrar é que, em dimensões extremamente altas, há muito mais "espaço", e os pontos dentro do espaço começam a parecer uniformemente distribuídos (ou seja, tudo está longe de tudo o resto). Nesse ponto, a matriz de covariância começará a parecer essencialmente uniforme e será muito altamente sensível ao ruído. Torna-se, portanto, uma estimativa ruim da covariância "verdadeira". Talvez o FPCA contorne isso de alguma forma, mas não tenho certeza.

tdc
fonte