O que se entende por PCA preservando apenas grandes distâncias em pares?

10

Atualmente, estou lendo a técnica de visualização t-SNE e foi mencionado que uma das desvantagens do uso da análise de componentes principais (PCA) para visualizar dados de alta dimensão é que ela preserva apenas grandes distâncias em pares entre os pontos. Os pontos de significado que estão distantes no espaço de alta dimensão também pareceriam distantes no subespaço de baixa dimensão, mas fora isso, todas as outras distâncias aos pares seriam erradas.

Alguém poderia me ajudar a entender por que isso e o que significa graficamente?

do utilizador
fonte
O PCA está intimamente relacionado às distâncias Euclidiana e Mahalanobis, que são míopes em dimensões mais altas, não podem ver pequenas distâncias.
Aksakal
Observe também que o PCA, como visto como o MDS métrico mais simples, é sobre a reconstrução de distâncias euclidianas quadradas somadas . Hense, precisão para pequenas distâncias sofre.
ttnphns

Respostas:

8

Considere o seguinte conjunto de dados:

Conjunto de dados PCA

O eixo PC1 está maximizando a variação da projeção. Portanto, nesse caso, obviamente irá na diagonal do canto inferior esquerdo para o canto superior direito:

PCA preservando apenas grandes distâncias em pares

A maior distância em pares no conjunto de dados original é entre esses dois pontos distantes; observe que ele é quase exatamente preservado no PC1. Distâncias emparelhadas menores, mas ainda substanciais, estão entre cada um dos pontos periféricos e todos os outros pontos; aqueles são preservados razoavelmente bem também. Mas se você observar as distâncias pares ainda menores entre os pontos no cluster central, verá que alguns deles estão fortemente distorcidos.

Eu acho que isso dá a intuição correta: o PCA encontra o subespaço de baixa dimensão com variação máxima. A variação máxima significa que o subespaço tenderá a ser alinhado, de modo a aproximar-se dos pontos distantes do centro; portanto, as maiores distâncias aos pares tendem a ser bem preservadas e as menores, menos.

1010×1010×10de fato, melhor preservado precisamente pelo PC1 (veja minha resposta lá para a prova). E pode-se argumentar que grandes distâncias aos pares geralmente significam também grandes produtos escalares; de fato, um dos algoritmos MDS (classical / Torgerson MDS) está disposto a fazer essa suposição explicitamente.

Então, para resumir:

  1. O PCA visa preservar a matriz de produtos escalares pareados, no sentido de que a soma das diferenças quadráticas entre os produtos escalares originais e reconstruídos deve ser mínima.
  2. Isso significa que, em vez disso, preservará os produtos escalares com maior valor absoluto e se importará menos com aqueles com pequeno valor absoluto, pois eles adicionam menos à soma dos erros ao quadrado.
  3. Portanto, o PCA preserva produtos escalares maiores melhor do que os menores.
  4. As distâncias aos pares serão preservadas apenas na medida em que forem semelhantes aos produtos escalares, o que geralmente é o caso, mas nem sempre. Se for o caso, as distâncias maiores aos pares também serão preservadas melhor do que as menores.
ameba
fonte
Eu não acho que este é um visual certo. Ele não mostra como as coisas piorar com o aumento dimensionalidade
Aksakal
2
Não sei se entendi seu ponto, @Aksakal. Considere postar uma resposta alternativa com seu ponto de vista. Eu acho que o efeito de preservar melhor distâncias maiores do que menores já está em 2D, e não é preciso pensar em alta dimensionalidade para entender o que está acontecendo. Por isso, concentrei-me em um exemplo 2D simples.
Ameba
O que você desenhou seria aplicável a qualquer método. Posso colocar alguns pontos muito distantes e argumentar que eles superam os demais. O problema com distâncias euclidianas é que seus psiquiatras faixa dinâmica com aumento dimensionalidade
Aksakal
+1, mas eu mudaria um sotaque, de maneira um pouco diferente do que você (ponto 4 principalmente). O problema não é que essas são distâncias e esses são produtos escalares (a matriz de "dupla centralização") - afinal, dada a diagonal, elas preservam informações idênticas. Em vez disso, o problema é exatamente análogo às probabilidades de análise PCA vs Fator. O PCoA de Torgerson, como PCA, terá como objetivo maximizar a reconstrução do sc. prod. matriz principalmente através de sua diagonal, não controlando especificamente como as entradas fora da diagonal serão ajustadas.
ttnphns
(cont.) O traço da diagonal mencionada é a variabilidade geral e está diretamente relacionado à soma de todas as distâncias quadradas aos pares, deixando distâncias individuais para trás. Poderia ser redigido também em termos do teorema de Eckart-Young, que afirma que a nuvem de dados reconstruída por PCA é a mais próxima em termos de soma dos quadrados da original; isto é, a distância quadrada geral entre os pontos antigos e seus pontos projetados por PCA é mínima. Isso não é o mesmo que antigas distâncias em pares - novas relações de distâncias pw.
ttnphns