Eu aprendi sobre o PCA algumas aulas atrás na aula e, pesquisando mais sobre esse conceito fascinante, fiquei sabendo sobre o PCA escasso.
Eu queria perguntar, se não estou errado, é isso o PCA escasso: No PCA, se você tiver pontos de dados com variáveis , poderá representar cada ponto de dados no espaço dimensional antes de aplicar o PCA. Depois de aplicar o PCA, você pode representá-lo novamente no mesmo espaço dimensional, mas, desta vez, o primeiro componente principal conterá a maior variação, o segundo conterá a segunda direção de maior variação e assim por diante. Portanto, você pode eliminar os últimos componentes principais, pois eles não causam muita perda de dados e você pode compactá-los. Direita?p p
O PCA esparso está selecionando os componentes principais, de modo que esses componentes contenham menos valores diferentes de zero em seus coeficientes de vetor.
Como isso deve ajudá-lo a interpretar melhor os dados? Alguém pode dar um exemplo?
fonte
Respostas:
Se o PCA esparso é mais fácil de interpretar do que o PCA padrão ou não, depende do conjunto de dados que você está investigando. Aqui está como eu penso sobre isso: às vezes alguém está mais interessado nas projeções do PCA (representação de baixa dimensão dos dados), e às vezes - nos eixos principais; é apenas neste último caso que a PCA esparsa pode trazer benefícios para a interpretação. Deixe-me dar alguns exemplos.
Por exemplo, estou trabalhando com dados neurais (gravações simultâneas de muitos neurônios) e aplicando PCA e / ou técnicas de redução de dimensionalidade relacionadas para obter uma representação em baixa dimensão da atividade da população neural. Eu posso ter 1000 neurônios (ou seja, meus dados vivem no espaço 1000-dimensional) e quero projetá-los nos três principais eixos principais. O que são esses eixos é totalmente irrelevante para mim e não tenho nenhuma intenção de "interpretar" esses eixos de forma alguma. O que me interessa é a projeção em 3D (como a atividade depende do tempo, tenho uma trajetória nesse espaço em 3D). Então, eu estou bem se cada eixo tiver todos os 1000 coeficientes diferentes de zero.
Por outro lado, alguém pode estar trabalhando com dados mais "tangíveis", onde as dimensões individuais têm um significado óbvio (ao contrário dos neurônios individuais acima). Por exemplo, um conjunto de dados de vários carros, em que as dimensões variam de peso a preço. Nesse caso, pode-se realmente interessar nos eixos principais principais, porque pode-se dizer algo: veja, o 1º eixo principal corresponde à "fantasia" do carro (estou inventando isso agora). Se a projeção for esparsa, essas interpretações geralmente seriam mais fáceis de serem feitas, porque muitas variáveis terão coeficientes e, portanto, são obviamente irrelevantes para esse eixo em particular. No caso do PCA padrão, geralmente se obtém coeficientes diferentes de zero para todas as variáveis.0 0
Você pode encontrar mais exemplos e alguma discussão sobre este último caso no artigo Sparse PCA de 2006, de Zou et al. A diferença entre o primeiro e o último caso, no entanto, não vi explicitamente discutido em nenhum lugar (mesmo que provavelmente tenha sido).
fonte
fonte
Para entender as vantagens da escassez no PCA, você precisa saber a diferença entre "loadings" e "variable" (para mim esses nomes são um tanto arbitrários, mas isso não é importante).
Digamos que você tenha uma matriz de dados nxp X , em que n é o número de amostras. O SVD de X = USV ' fornece três matrizes. A combinação dos dois primeiros Z = US fornece a matriz dos Componentes Principais. Digamos que sua classificação reduzida seja k e Z seja nxk . Z é essencialmente sua matriz de dados após a redução da dimensão. Historicamente,
Por outro lado, V (que é pxk ) contém os principais vetores de carregamento e suas entradas são chamadas de carregamentos principais. Dadas as propriedades do PCA, é fácil mostrar que Z = XV . Isso significa que:
Agora que essas definições estão fora do caminho, veremos a dispersão. A maioria dos trabalhos (ou pelo menos a maioria dos que encontrei) impõe a escassez nos principais carregamentos (também conhecido como V ). A vantagem da escarsidade é que
Também existem interpretações para reforçar a escassez nas entradas de Z , que vi pessoas chamarem de "variável esparsa PCA" ", mas isso é muito menos popular e, para ser sincero, não pensei muito nisso.
fonte