Os dados devem ser centralizados + dimensionados antes de aplicar o t-SNE?

18

Alguns dos recursos de meus dados têm valores grandes, enquanto outros possuem valores muito menores.

É necessário centralizar os dados na escala + antes de aplicar o t-SNE para evitar desvios para valores maiores?

Eu uso a implementação sklearn.manifold.TSNE do Python com a métrica de distância euclidiana padrão.

stmax
fonte

Respostas:

18

A centralização não deve importar, uma vez que o algoritmo opera apenas nas distâncias entre os pontos, no entanto, o redimensionamento é necessário se você deseja que as diferentes dimensões sejam tratadas com igual importância, pois a norma 2 será mais fortemente influenciada por dimensões com grande variação.

jon_simon
fonte