Atualmente, estou lendo a técnica de visualização t-SNE e foi mencionado que uma das desvantagens do uso da análise de componentes principais (PCA) para visualizar dados de alta dimensão é que ela preserva apenas grandes distâncias em pares entre os pontos. Os pontos de significado que estão distantes no espaço de alta dimensão também pareceriam distantes no subespaço de baixa dimensão, mas fora isso, todas as outras distâncias aos pares seriam erradas.
Alguém poderia me ajudar a entender por que isso e o que significa graficamente?
machine-learning
data-visualization
pca
tsne
do utilizador
fonte
fonte
Respostas:
Considere o seguinte conjunto de dados:
O eixo PC1 está maximizando a variação da projeção. Portanto, nesse caso, obviamente irá na diagonal do canto inferior esquerdo para o canto superior direito:
A maior distância em pares no conjunto de dados original é entre esses dois pontos distantes; observe que ele é quase exatamente preservado no PC1. Distâncias emparelhadas menores, mas ainda substanciais, estão entre cada um dos pontos periféricos e todos os outros pontos; aqueles são preservados razoavelmente bem também. Mas se você observar as distâncias pares ainda menores entre os pontos no cluster central, verá que alguns deles estão fortemente distorcidos.
Eu acho que isso dá a intuição correta: o PCA encontra o subespaço de baixa dimensão com variação máxima. A variação máxima significa que o subespaço tenderá a ser alinhado, de modo a aproximar-se dos pontos distantes do centro; portanto, as maiores distâncias aos pares tendem a ser bem preservadas e as menores, menos.
Então, para resumir:
fonte