No seu papel em autoencoders para classificação texto Hinton e Salakhutdinov demonstrado o lote produzido por 2-dimensional LSA (que está intimamente relacionado com a PCA): .
Aplicando o PCA a dados de dimensão ligeiramente alta absolutamente diferentes, obtive um gráfico de aparência semelhante: (exceto neste caso, eu realmente queria saber se existe alguma estrutura interna).
Se alimentarmos dados aleatórios no PCA, obteremos um blob em forma de disco, portanto essa forma em forma de cunha não é aleatória. Isso significa alguma coisa por si só?
data-visualization
pca
macleginn
fonte
fonte
Respostas:
Supondo que as variáveis sejam positivas ou não negativas, as bordas da borda são apenas pontos além dos quais os dados se tornariam 0 ou negativos, respectivamente. Como esses dados da vida real tendem a ser distorcidos corretamente, vemos maior densidade de pontos na extremidade inferior de sua distribuição e, portanto, maior densidade no "ponto" da cunha.
De um modo mais geral, o PCA é simplesmente uma rotação dos dados e as restrições nesses dados geralmente serão visíveis nos componentes principais da mesma maneira mostrada na pergunta.
Aqui está um exemplo usando várias variáveis log-normalmente distribuídas:
Dependendo da rotação implícita nos dois primeiros PCs, você poderá ver a cunha ou uma versão um pouco diferente, mostrada aqui em 3d usando (
ordirgl()
no lugar deplot()
)Aqui, em 3d, vemos vários picos saindo da massa central.
E para variáveis aleatórias positivas uniformes, vemos um cubo
Observe que aqui, para ilustração, mostro o uniforme usando apenas 3 variáveis aleatórias, portanto, os pontos descrevem um cubo em 3d. Com dimensões mais altas / mais variáveis, não podemos representar perfeitamente o hipercubo 5d em 3d e, portanto, a forma distinta de "cubo" fica distorcida. Problemas semelhantes afetam os outros exemplos mostrados, mas ainda é fácil ver as restrições nesses exemplos.
Para seus dados, uma transformação de log das variáveis anteriores ao PCA puxaria as caudas e esticaria os dados agrupados, assim como você pode usar essa transformação em uma regressão linear.
Outras formas podem surgir em gráficos de PCA; uma dessas formas é um artefato da representação métrica preservada no PCA e é conhecida como ferradura . Para dados com um gradiente longo ou dominante (as amostras organizadas em uma única dimensão com variáveis aumentando de 0 a um máximo e depois diminuindo novamente a 0 ao longo de partes dos dados são conhecidas por gerar esses artefatos.
que produz uma ferradura extrema, onde pontos nas extremidades dos eixos se dobram de volta para o meio.
fonte