Os pontos mais próximos podem ser considerados mais semelhantes na visualização do T-SNE?

14

Entendo pelo artigo de Hinton que o T-SNE faz um bom trabalho em manter as semelhanças locais e um trabalho decente em preservar a estrutura global (clusterização).

No entanto, não estou claro se os pontos que aparecem mais próximos em uma visualização t-sne 2D podem ser assumidos como pontos de dados "mais semelhantes". Estou usando dados com 25 recursos.

Como exemplo, observando a imagem abaixo, posso assumir que os pontos de dados azuis são mais semelhantes aos verdes, especificamente ao maior cluster de pontos verdes ?. Ou, perguntando de forma diferente, é aceitável assumir que os pontos azuis são mais semelhantes ao verde no cluster mais próximo do que aos vermelhos no outro cluster? (desconsiderando pontos verdes no cluster vermelho-ish)

insira a descrição da imagem aqui

Ao observar outros exemplos, como os apresentados no sci-kit, aprendemos o aprendizado múltiplo, parece correto assumir isso, mas não tenho certeza se está estatisticamente correto.

insira a descrição da imagem aqui

EDITAR

Calculei manualmente as distâncias do conjunto de dados original (a distância euclidiana média em pares) e a visualização realmente representa uma distância espacial proporcional em relação ao conjunto de dados. No entanto, gostaria de saber se isso é razoavelmente aceitável a partir da formulação matemática original de t-sne e não por mera coincidência.

Javierfdr
fonte
1
Os pontos azuis são os mais próximos dos respectivos pontos verdes vizinhos, é assim que a incorporação foi realizada. Falando livremente, as semelhanças (ou distância) devem ser preservadas. Passar de 25 dimensões para apenas 2 provavelmente resulta em perda de informações, mas a representação 2D é a mais próxima que pode ser mostrada na tela.
Vladislavs Dovgalecs 21/03

Respostas:

5

Eu apresentaria o t-SNE como uma adaptação probabilística inteligente da incorporação linear localmente. Nos dois casos, tentamos projetar pontos de um espaço dimensional alto para um espaço pequeno. Essa projeção é feita otimizando a conservação das distâncias locais (diretamente com LLE, pré-produzindo uma distribuição probabilística e otimizando a divergência de KL com t-SNE). Então, se sua pergunta é: ela mantém distâncias globais, a resposta é não. Isso dependerá da "forma" dos seus dados (se a distribuição for suave, as distâncias devem ser de alguma forma conservadas).

Na verdade, o t-SNE não funciona bem no swiss roll (sua imagem 3D "S") e você pode ver que, no resultado 2D, os pontos amarelos médios geralmente são mais próximos dos vermelhos do que dos azuis (eles estão perfeitamente centralizados na imagem 3D).

Um outro bom exemplo do que t-SNE faz é o agrupamento de dígitos manuscritos. Veja os exemplos neste link: https://lvdmaaten.github.io/tsne/

Robin
fonte
2
O que quero dizer é que você não pode simplesmente usar a distância no espaço inferior como critério de similaridade. O t-SNE manterá a estrutura global, como clusters, mas não será necessário manter distâncias. Isso dependerá da forma dos dados de alta dimensão e da perplexidade que você usa.
22616 Robin
1
OK eu vejo. Obrigado por esclarecer. Sim, eu concordo que as distâncias no espaço inferior não seriam precisas. Agora, como t-sne é prático para visualização, posso usar distâncias conceituais no gráfico de menor dimensão? Por exemplo, no meu enredo, posso dizer com certeza que os pontos azuis são mais próximos ou mais semelhantes aos verdes do que aos vermelhos, dada a separação óbvia dos três grupos no espaço 2D. Ou isso também seria difícil de dizer?
21416 Javierfdr
1
É muito difícil dizer. Os pontos no espaço de baixa dimensão são inicializados com uma distribuição gaussiana centrada na origem. Eles são substituídos iterativamente, otimizando a divergência KL. Então, eu diria que, no seu caso, os pontos azuis são mais semelhantes ao cluster verde, mas agora há uma maneira de avaliar quão próximos eles estão do que o cluster vermelho. t-PND.
22416 Robin
1
Em conjunto, o t-SNE enfatiza (1) modelar pontos de dados diferentes por meio de grandes distâncias em pares e (2) modelar pontos de dados semelhantes por meio de pequenas distâncias em pares. Especificamente, o t-SNE introduz forças de longo alcance no mapa de baixa dimensão que podem reunir dois (grupos de) pontos semelhantes que são separados no início da otimização.
22416 Robin
1
Explicação muito boa. Muito obrigado por seu esforço. Eu acho que você comentários diferentes juntos uma resposta completa.
23416 Javierfdr