Qual a diferença entre PCA e MDS clássico? E quanto ao MDS versus o MDS não métrico? Existe um momento em que você prefere um sobre o outro? Como as interpretações diferem?
fonte
Qual a diferença entre PCA e MDS clássico? E quanto ao MDS versus o MDS não métrico? Existe um momento em que você prefere um sobre o outro? Como as interpretações diferem?
A métrica MDS clássica de Torgerson é na verdade feita transformando distâncias em semelhanças e executando PCA (decomposição de autogênio ou decomposição de valor singular) nessas. [O outro nome desse procedimento (em distances between objects -> similarities between them -> PCA
que os carregamentos são as coordenadas procuradas) é Análise de coordenadas principais ou PCoA .] Portanto, o PCA pode ser chamado de algoritmo do MDS mais simples.
O MDS não métrico baseia-se no algoritmo iterativo ALSCAL ou PROXSCAL (ou algoritmo semelhante a eles), que é uma técnica de mapeamento mais versátil que o PCA e também pode ser aplicada ao MDS métrico. Enquanto o PCA retém m dimensões importantes para você, o ALSCAL / PROXSCAL ajusta a configuração às m dimensões (você pré-define m ) e reproduz dissimilaridades no mapa de maneira mais direta e precisa do que o PCA normalmente pode (consulte a seção Ilustração abaixo).
Portanto, MDS e PCA provavelmente não estão no mesmo nível para estar alinhados ou opostos um ao outro. O PCA é apenas um método, enquanto o MDS é uma classe de análise. Como mapeamento, o PCA é um caso particular do MDS. Por outro lado, o PCA é um caso particular de análise fatorial que, sendo uma redução de dados, é mais do que apenas um mapeamento, enquanto o MDS é apenas um mapeamento.
Quanto à sua pergunta sobre MDS métrico vs MDS não métrico, há pouco a comentar, porque a resposta é direta. Se eu acredito que minhas dissimilaridades de entrada estão tão próximas das distâncias euclidianas que uma transformação linear será suficiente para mapeá-las no espaço m-dimensional, preferirei o MDS métrico. Se eu não acredito, a transformação monotônica é necessária, implicando o uso de MDS não métrico.
Uma nota sobre terminologia para um leitor. O termo Classic (al) MDS (CMDS) pode ter dois significados diferentes em uma vasta literatura sobre MDS, portanto é ambíguo e deve ser evitado. Uma definição é que CMDS é sinônimo da métrica MDS de Torgerson. Outra definição é que CMDS é qualquer MDS (por qualquer algoritmo; análise métrica ou não-métrica) com entrada de matriz única (pois existem modelos analisando muitas matrizes de uma só vez - modelo "INDSCAL" individual e modelo replicado).
Ilustração para a resposta . Alguma nuvem de pontos (elipse) está sendo mapeada em um mapa mds unidimensional. Um par de pontos é mostrado em pontos vermelhos.
O MDS iterativo ou "verdadeiro" visa diretamente reconstruir distâncias aos pares entre objetos. Pois é tarefa de qualquer MDS . Vários critérios de stress ou desajuste poderia ser minimizado entre o distâncias riginal e distâncias no m ap: , ‖ D 2 O - D 2 m ‖ 1 , ‖ D o - D m ‖ 1 . Um algoritmo pode (MDS não métrico) ou não (MDS métrico) incluir a transformação monotônica dessa maneira.
O MDS baseado em PCA (Torgerson's ou PCoA) não é correto. Minimiza as distâncias ao quadrado entre os objetos no espaço original e suas imagens no mapa. Esta não é uma tarefa MDS genuína; é bem-sucedido, como MDS, apenas na medida em que os eixos principais juniores descartados são fracos. Se explica muito mais variância de P 2 o primeiro pode por si só refletem substancialmente distâncias pares na nuvem, especialmente para pontos deitado distantes ao longo da elipse. O MDS iterativo sempre vencerá, e especialmente quando o mapa for muito pouco dimensional. O MDS iterativo também terá mais sucesso quando uma elipse da nuvem for fina, mas executará melhor a tarefa mds do que o PCoA. Pela propriedade da matriz de dupla centragem (descrita aqui) parece que o PCoA minimiza , que é diferente de qualquer uma das minimizações acima.
Mais uma vez, o PCA projeta os pontos da nuvem no subespaço de economia corporal mais vantajoso. Ele não projeta distâncias aos pares , localizações relativas de pontos em um subespaço que economizam mais a esse respeito, como faz o MDS iterativo. No entanto, historicamente PCoA / PCA é considerado um dos métodos da MDS métrica.
Uhm ... bem diferente. No PCA, você recebe os dados contínuos multivariados (um vetor multivariado para cada sujeito) e está tentando descobrir se não precisa de tantas dimensões para conceituá-los. No MDS (métrico), você recebe a matriz de distâncias entre os objetos e tenta descobrir quais são as localizações desses objetos no espaço (e se precisa de um espaço 1D, 2D, 3D etc.). No MDS não métrico, você sabe apenas que os objetos 1 e 2 estão mais distantes que os objetos 2 e 3, e tenta quantificar isso, além de encontrar as dimensões e os locais.
Com uma notável extensão de imaginação, você pode dizer que um objetivo comum do PCA e do MDS é visualizar objetos em 2D ou 3D. Mas, considerando a diferença entre as entradas, esses métodos não serão discutidos nem mesmo relacionados à distância em nenhum livro multivariado. Suponho que você pode converter os dados utilizáveis para PCA em dados utilizáveis para MDS (digamos, calculando distâncias de Mahalanobis entre objetos, usando a matriz de covariância de amostra), mas isso resultaria imediatamente em uma perda de informações: o MDS é definido apenas localização e rotação, e os dois últimos podem ser feitos de forma mais informativa com o PCA.
Se eu mostrasse brevemente a alguém os resultados do MDS não métrico e quisesse dar uma idéia aproximada do que ele faz sem entrar em detalhes, eu poderia dizer:
fonte
Dois tipos de MDS métrico
A tarefa de escalonamento multidimensional métrica (MDS) pode ser abstracto formulado como se segue: dado um matriz D de distâncias emparelhadas entre n pontos, encontrar uma incorporação baixo-dimensional de pontos de dados em R k tal que distância euclidiana entre eles aproximam-se do dadas as distâncias: ‖ x i - x j ‖ ≈ D i j .n×n D n Rk
Se "aproximado" aqui é entendido no sentido habitual de erro de reconstrução, por exemplo, se o objectivo é o de minimizar a função custo chamado de "tensão": em seguida, a solução é não é equivalente ao PCA. A solução não é fornecida por nenhuma fórmula fechada e deve ser calculada por um algoritmo iterativo dedicado.
"MDS Clássica", também conhecido como "Torgerson MDS", substitui esta função de custo por um relacionada mas não equivalentes , denominada "estirpe": que visa minimizar erro de reconstrução de produtos escalares centrados em vez de distâncias. Acontece que K c pode ser calculado a partir de D (se D são distâncias euclidianas) e que minimizar o erro de reconstrução de K c é exatamente o que o PCA faz, como mostrado na próxima seção.
O MDS clássico (Torgerson) em distâncias euclidianas é equivalente ao PCA
Que os dados sejam coletados na matriz de tamanho n × k com observações em linhas e recursos em colunas. Seja X c a matriz centralizada com médias de colunas subtraídas.X n × k Xc
Então o PCA equivale a decompor valores singulares , com colunas de U S como componentes principais. Uma maneira comum de obtê-los é através de uma composição independente da matriz de covariância 1Xc= U S V⊤ U S 1nX⊤cX⊤c Kc=X⊤cX⊤c=US2U⊤
Referência: Os Elementos da Aprendizagem Estatística , seção 18.5.2.
fonte
O PCA produz EXATAMENTE os mesmos resultados que o MDS clássico se a distância euclidiana for usada.
Estou citando Cox e Cox (2001), p 43-44:
A seção em Cox & Cox explica claramente:
fonte
same results as classical MDS
. Por "MDS clássico", você deve estar significando o MDS de Torgerson aqui. Então a afirmação é realmente verdadeira, pois o MDS de Torgerson é na verdade PCA (apenas começando pela matriz de distância). Se definir "MDS clássico" de maneira diferente (veja minha resposta), a afirmação não é verdadeira.Comparação: "O Metric MDS fornece o mesmo resultado como PCA" - proceduralmente - quando analisamos a maneira como o SVD é usado para obter o melhor. Mas, os critérios de alta dimensão preservados são diferentes. O PCA usa uma matriz de covariância centralizada, enquanto o MDS usa uma matriz de gram obtida por matrizes de distância de centralização dupla.
fonte