Como exatamente o PCA esparso é melhor que o PCA?

24

Eu aprendi sobre o PCA algumas aulas atrás na aula e, pesquisando mais sobre esse conceito fascinante, fiquei sabendo sobre o PCA escasso.

Eu queria perguntar, se não estou errado, é isso o PCA escasso: No PCA, se você tiver pontos de dados com variáveis , poderá representar cada ponto de dados no espaço dimensional antes de aplicar o PCA. Depois de aplicar o PCA, você pode representá-lo novamente no mesmo espaço dimensional, mas, desta vez, o primeiro componente principal conterá a maior variação, o segundo conterá a segunda direção de maior variação e assim por diante. Portanto, você pode eliminar os últimos componentes principais, pois eles não causam muita perda de dados e você pode compactá-los. Direita?p pnpp

O PCA esparso está selecionando os componentes principais, de modo que esses componentes contenham menos valores diferentes de zero em seus coeficientes de vetor.

Como isso deve ajudá-lo a interpretar melhor os dados? Alguém pode dar um exemplo?

GrowinMan
fonte
Olá @GrowinMan! Você viu minha resposta a esta pergunta? Você acha que responde? Caso contrário, fique à vontade para pedir esclarecimentos ou considere editar sua pergunta para torná-la mais precisa. Se sim, considere fazer um voto positivo e "aceitá-lo" clicando em uma marca verde nas proximidades. Percebi que você tem zero votos e zero tópicos aceitos aqui no CrossValidated.
Ameba diz Reinstate Monica
@amoeba Obrigado por apontar isso. Não conecto há um tempo e também estou um pouco desconectado do aprendizado de máquina. Eu vou ter a certeza de ler a sua resposta novamente, e respostas marca aqui no fim de semana
GrowinMan
Sem problemas. Eu acidentalmente me deparei com esse tópico antigo e pensei em deixar uma linha para você.
Ameba diz Reinstate Monica
Olá @GrowinMan! :-) Me deparei com esse tópico antigo novamente. Se você ainda acha que esta questão não foi resolvida, solicite esclarecimentos. Caso contrário, considere fazer um voto positivo e "aceitar" uma das respostas clicando em uma marca verde nas proximidades. Notei que você tem zero votos e zero threads aceitos aqui no CrossValidated.
Ameba diz Reinstate Monica

Respostas:

29

Se o PCA esparso é mais fácil de interpretar do que o PCA padrão ou não, depende do conjunto de dados que você está investigando. Aqui está como eu penso sobre isso: às vezes alguém está mais interessado nas projeções do PCA (representação de baixa dimensão dos dados), e às vezes - nos eixos principais; é apenas neste último caso que a PCA esparsa pode trazer benefícios para a interpretação. Deixe-me dar alguns exemplos.

Por exemplo, estou trabalhando com dados neurais (gravações simultâneas de muitos neurônios) e aplicando PCA e / ou técnicas de redução de dimensionalidade relacionadas para obter uma representação em baixa dimensão da atividade da população neural. Eu posso ter 1000 neurônios (ou seja, meus dados vivem no espaço 1000-dimensional) e quero projetá-los nos três principais eixos principais. O que são esses eixos é totalmente irrelevante para mim e não tenho nenhuma intenção de "interpretar" esses eixos de forma alguma. O que me interessa é a projeção em 3D (como a atividade depende do tempo, tenho uma trajetória nesse espaço em 3D). Então, eu estou bem se cada eixo tiver todos os 1000 coeficientes diferentes de zero.

Por outro lado, alguém pode estar trabalhando com dados mais "tangíveis", onde as dimensões individuais têm um significado óbvio (ao contrário dos neurônios individuais acima). Por exemplo, um conjunto de dados de vários carros, em que as dimensões variam de peso a preço. Nesse caso, pode-se realmente interessar nos eixos principais principais, porque pode-se dizer algo: veja, o 1º eixo principal corresponde à "fantasia" do carro (estou inventando isso agora). Se a projeção for esparsa, essas interpretações geralmente seriam mais fáceis de serem feitas, porque muitas variáveis ​​terão coeficientes e, portanto, são obviamente irrelevantes para esse eixo em particular. No caso do PCA padrão, geralmente se obtém coeficientes diferentes de zero para todas as variáveis.0 0

Você pode encontrar mais exemplos e alguma discussão sobre este último caso no artigo Sparse PCA de 2006, de Zou et al. A diferença entre o primeiro e o último caso, no entanto, não vi explicitamente discutido em nenhum lugar (mesmo que provavelmente tenha sido).

ameba diz Restabelecer Monica
fonte
3
Essa foi uma ótima explicação. Outro exemplo de seus dados "tangíveis" seria Uma pesquisa com muitas perguntas e você deseja saber quais perguntas são mais importantes e talvez uma combinação delas esteja realmente perguntando sobre um tópico.
Bdonovic
1

Portanto, você pode eliminar os últimos componentes principais, pois eles não causam muita perda de dados e você pode compactá-los. Direita?

NV1,V2,,VNNPC1,PC2,,PCNVEuPCEu

PCEuVj,Veu,

(PCEu,PCj)N

Leon-Alph
fonte
Quão!? Não vejo como seria fácil interpretar neste caso, ao contrário de quando os Componentes Principais não são escassos.
GrowinMan
2
A maneira como penso sobre isso é que geralmente fazemos agrupamentos variáveis ​​antes do PC para tornar os resultados mais interpretáveis. O Sparse PC combina clustering variável e PC em uma única etapa, exigindo menos decisões por parte do analista.
Frank Harrell
1

Para entender as vantagens da escassez no PCA, você precisa saber a diferença entre "loadings" e "variable" (para mim esses nomes são um tanto arbitrários, mas isso não é importante).

Digamos que você tenha uma matriz de dados nxp X , em que n é o número de amostras. O SVD de X = USV ' fornece três matrizes. A combinação dos dois primeiros Z = US fornece a matriz dos Componentes Principais. Digamos que sua classificação reduzida seja k e Z seja nxk . Z é essencialmente sua matriz de dados após a redução da dimensão. Historicamente,

As entradas dos seus principais componentes (também conhecidas como Z = US ) são chamadas de variáveis.

Por outro lado, V (que é pxk ) contém os principais vetores de carregamento e suas entradas são chamadas de carregamentos principais. Dadas as propriedades do PCA, é fácil mostrar que Z = XV . Isso significa que:

Os componentes principais são derivadas utilizando as principais cargas como os coeficientes de uma combinação linear de sua matriz de dados X .

Agora que essas definições estão fora do caminho, veremos a dispersão. A maioria dos trabalhos (ou pelo menos a maioria dos que encontrei) impõe a escassez nos principais carregamentos (também conhecido como V ). A vantagem da escarsidade é que

uma escassa V vai nos dizer quais variáveis (a partir do original p espaço de características dimensional) são vale a pena manter. Isso é chamado de interpretabilidade.

Também existem interpretações para reforçar a escassez nas entradas de Z , que vi pessoas chamarem de "variável esparsa PCA" ", mas isso é muito menos popular e, para ser sincero, não pensei muito nisso.

idnavid
fonte