Eu gerei uma visualização t-SNE de um conjunto de dados (cerca de 10 recursos numéricos padronizados (média = 0, sd = 1)) e cheguei a um gráfico bidimensional a seguir. Não tenho uma boa intuição de por que os pontos estão alinhados em uma espécie de grupos em forma de arco; veja, por exemplo, a parte inferior direita da imagem em anexo (ou a parte mais à esquerda).
Encontrei um efeito semelhante no artigo original http://www.cs.toronto.edu/~hinton/absps/tsne.pdf - veja a Figura 4.a. No entanto, não encontrei uma boa explicação para esse tipo de fenômeno.
Alguma intuição sobre por que isso acontece?
data-visualization
tsne
JanekL
fonte
fonte
Respostas:
O fenômeno semelhante pode ser visto se você procurar imagens de "layout de gráfico de primavera", que mostram muitos exemplos desses arcos, como este da wikipedia . Perto do topo, na borda direita da imagem, vemos um desses arco. É certo que este não é o melhor exemplo. O canto superior direito esta imagem de este papel mostra o efeito um pouco
A maioria dessas visualizações gráficas é gerada simulando uma força de mola entre cada par de nós conectados e permitindo que os nós se movam de acordo com essa força.
No t-SNE, é possível uma interpretação semelhante do algoritmo - os pontos no espaço 2D têm uma mola, cujo comprimento de repouso depende da distância dos pontos no espaço de alta dimensão original. Portanto, os pontos que estão mais próximos no espaço 2D do que no espaço de alta dimensão são afastados e os pontos que estão mais longe no espaço 2D do que no espaço de alta dimensão são reunidos.
Portanto, é provável que os arcos se formem porque eles estão tentando manter uma distância constante para outro grupo de pontos nos dados.
Diferentemente do layout do gráfico de mola acima, cada par de pontos no t-SNE tem uma mola / força anexada a ele, por isso é uma pergunta válida perguntar por que os arcos não se agrupam em blobs, como mostra a visualização do gráfico em wikipedia, onde alguns grupos de nós nas bordas formaram grupos arredondados em vez de arcos.
Suspeito que a razão disso seja que cada ponto no t-SNE tem uma variação associada a ele. Os pontos em uma região mais esparsa do espaço de alta dimensão têm uma variação maior em comparação com os pontos em um espaço de menor dimensão. A força nas molas dos pontos de alta variância é reduzida; portanto, se os pontos de um arco estiverem localizados em uma região esparsa do espaço original, haveria apenas uma força fraca tentando puxá-los para um aglomerado, o que pode não superar outros forças opostas.
Além disso, o método que os autores usaram para reduzir o aglomerado foi usar uma distribuição de cauda pesada no espaço 2D, o que significa que os pontos não são penalizados demais por estarem mais afastados um do outro do que deveriam. Isso também reduz as forças que tentariam puxar um arco para um cluster.
fonte