Entendo pelo artigo de Hinton que o T-SNE faz um bom trabalho em manter as semelhanças locais e um trabalho decente em preservar a estrutura global (clusterização).
No entanto, não estou claro se os pontos que aparecem mais próximos em uma visualização t-sne 2D podem ser assumidos como pontos de dados "mais semelhantes". Estou usando dados com 25 recursos.
Como exemplo, observando a imagem abaixo, posso assumir que os pontos de dados azuis são mais semelhantes aos verdes, especificamente ao maior cluster de pontos verdes ?. Ou, perguntando de forma diferente, é aceitável assumir que os pontos azuis são mais semelhantes ao verde no cluster mais próximo do que aos vermelhos no outro cluster? (desconsiderando pontos verdes no cluster vermelho-ish)
Ao observar outros exemplos, como os apresentados no sci-kit, aprendemos o aprendizado múltiplo, parece correto assumir isso, mas não tenho certeza se está estatisticamente correto.
EDITAR
Calculei manualmente as distâncias do conjunto de dados original (a distância euclidiana média em pares) e a visualização realmente representa uma distância espacial proporcional em relação ao conjunto de dados. No entanto, gostaria de saber se isso é razoavelmente aceitável a partir da formulação matemática original de t-sne e não por mera coincidência.
fonte
Respostas:
Eu apresentaria o t-SNE como uma adaptação probabilística inteligente da incorporação linear localmente. Nos dois casos, tentamos projetar pontos de um espaço dimensional alto para um espaço pequeno. Essa projeção é feita otimizando a conservação das distâncias locais (diretamente com LLE, pré-produzindo uma distribuição probabilística e otimizando a divergência de KL com t-SNE). Então, se sua pergunta é: ela mantém distâncias globais, a resposta é não. Isso dependerá da "forma" dos seus dados (se a distribuição for suave, as distâncias devem ser de alguma forma conservadas).
Na verdade, o t-SNE não funciona bem no swiss roll (sua imagem 3D "S") e você pode ver que, no resultado 2D, os pontos amarelos médios geralmente são mais próximos dos vermelhos do que dos azuis (eles estão perfeitamente centralizados na imagem 3D).
Um outro bom exemplo do que t-SNE faz é o agrupamento de dígitos manuscritos. Veja os exemplos neste link: https://lvdmaaten.github.io/tsne/
fonte