Eu tenho um doutorado em biologia molecular. Meus estudos começaram recentemente a envolver análise de dados de alta dimensão. Tive a ideia de como o t-SNE funciona (graças a um vídeo do StatQuest no YouTube ), mas não consigo entender o UMAP (ouvi a palestra do criador do UMAP on-line, mas não achei fácil de entender). Voltei ao artigo original descrevendo-o, mas era muita matemática para mim.
Alguém pode lançar alguma luz sobre o assunto? Estou procurando ou uma explicação intuitiva, semelhante ao vídeo StatQuest vinculado acima.
Respostas:
Você disse que seu entendimento do t-SNE é baseado em https://www.youtube.com/watch?v=NEaUSP4YerM e está procurando uma explicação do UMAP em um nível semelhante.
Eu assisti este vídeo e é bastante preciso no que diz (tenho alguns pequenos detalhes, mas no geral é bom). Engraçado o suficiente, ele quase se aplica ao UMAP exatamente como é. Aqui estão as coisas que não se aplicam:
Eu acho que todas essas diferenças não são muito importantes nem muito conseqüentes. A parte realmente importante é a parte em que no vídeo o narrador diz (10m40s):
O vídeo não explica como o t-SNE quantifica se são semelhantes ou não e como é possível conseguir que elas se pareçam. Ambas as partes são diferentes no UMAP. Mas a declaração citada também pode ser aplicada ao UMAP.
Da maneira como o artigo UMAP é escrito, as semelhanças computacionais com o t-SNE não são muito aparentes. Role para baixo até o Apêndice C em https://arxiv.org/pdf/1802.03426.pdf e / ou veja aqui https://jlmelville.github.io/uwot/umap-for-tsne.html , se desejar ver uma comparação lado a lado dos cálculos listados acima e das funções de perda de t-SNE e UMAP.
fonte
A principal diferença entre t-SNE e UMAP é a interpretação da distância entre objetos ou "aglomerados". Uso as aspas, pois os dois algoritmos não se destinam ao cluster - eles são principalmente para visualização.
O t-SNE preserva a estrutura local nos dados.
O UMAP afirma preservar a estrutura local e a maior parte da estrutura global nos dados.
Isso significa que com t-SNE você não pode interpretar a distância entre os clusters A e B nas diferentes extremidades do gráfico. Você não pode inferir que esses clusters são mais diferentes do que A e C, onde C está mais próximo de A na plotagem. Mas no cluster A, você pode dizer que pontos próximos um do outro são objetos mais semelhantes do que pontos em extremidades diferentes da imagem do cluster.
Com o UMAP, você deve conseguir interpretar as distâncias entre / posições de pontos e clusters.
Ambos os algoritmos são altamente estocásticos e dependem muito da escolha de hiperparâmetros (t-SNE ainda mais que UMAP) e podem produzir resultados muito diferentes em execuções diferentes, portanto, seu gráfico pode ofuscar uma informação nos dados que uma execução subseqüente possa revelar.
O bom PCA antigo, por outro lado, é determinístico e facilmente compreensível com o conhecimento básico de álgebra linear (multiplicação de matrizes e problemas próprios), mas é apenas uma redução linear em contraste com as reduções não lineares de t-SNE e UMAP.
fonte