Quando o t-SNE é enganoso?

37

Citando um dos autores:

A Incorporação Estocástica de Vizinhança Distribuída t (SNE) é uma técnica ( premiada ) para redução de dimensionalidade que é particularmente adequada para a visualização de conjuntos de dados de alta dimensão.

Parece ótimo, mas esse é o autor falando.

Outra citação do autor (re: a competição mencionada):

O que você tirou desta competição?
Sempre visualize seus dados primeiro, antes de começar a treinar preditores nos dados! Muitas vezes, visualizações como as que eu fiz fornecem informações sobre a distribuição de dados que podem ajudá-lo a determinar que tipos de modelos de previsão tentar.

Must informações 1 estar sendo perdida - é uma técnica afinal redução de dimensionalidade. No entanto, como é uma boa técnica a ser usada na visualização, as informações perdidas são menos valiosas que as informações destacadas (/ tornadas visíveis / compreensíveis através da redução para 2 ou 3 dimensões).

Então, minha pergunta é:

  • Quando o tSNE é a ferramenta errada para o trabalho?
  • Que tipo de conjunto de dados faz com que ele não funcione,
  • Que tipo de perguntas parece que pode responder, mas na verdade não pode?
  • Na segunda citação acima, é recomendável sempre visualizar seu conjunto de dados, essa visualização deve sempre ser feita com o tSNE?

Espero que essa pergunta possa ser melhor respondida no inverso, ou seja, respondendo: quando o tSNE é a ferramenta certa para o trabalho?


Fui avisado para não confiar no tSNE para me dizer como os dados serão classificáveis ​​com facilidade (separados em classes - um modelo discriminativo) O exemplo de que isso é enganoso foi que, para as duas imagens abaixo, um modelo generativo 2 era pior para os dados visualizados na primeira / esquerda (precisão 53,6%) que dados equivalentes na segunda / direita (precisão 67,2%).

primeiro segundo


1 Eu posso estar errado sobre isso. Posso me sentar e tentar um exemplo de prova / contador mais tarde

2 note que um modelo generativo não é o mesmo que um modelo discriminativo, mas este é o exemplo que me foi dado.

Lyndon White
fonte
1
AB|A|=|B||N|=|Nn|=0|R|=|R|=|Rn|=1R2R
@ Lucas: Ah, claro. (como eu não perceber isso)
Lyndon Branco
Que modelo generativo você está tentando?
WeiChing Lin
@ Wei-ChingLin Não tenho certeza de que tipo de modelo generativo estava sendo usado. Provavelmente algum tipo de Deep Belief Network, Deep Boltzmann Manchine ou Autoencoder. Não é realmente relevante para o cerne da questão
Lyndon White
2
Relevante: distill.pub/2016/misread-tsne
Lyndon White

Respostas:

13

O T-Sne é uma técnica de redução que mantém a estrutura de pequena escala (ou seja, o que é particularmente próximo do que) do espaço, o que o torna muito bom para visualizar a separabilidade dos dados. Isso significa que o T-Sne é particularmente útil para visualização antecipada, voltada para a compreensão do grau de separabilidade dos dados. Outras técnicas (PCA, por exemplo) deixam dados em representações dimensionais mais baixas projetadas umas sobre as outras à medida que as dimensões desaparecem, o que torna muito difícil fazer uma declaração clara sobre separabilidade no espaço dimensional mais alto.

Por exemplo, se você obtiver um gráfico T-Sne com muitos dados sobrepostos, é alta a probabilidade de o seu classificador ter um desempenho ruim, independentemente do que você faça. Por outro lado, se você vir dados claramente separados no gráfico T-Sne, os dados de alta dimensão subjacentes conterão variabilidade suficiente para criar um bom classificador.

John Yetter
fonte
3
Essa é uma explicação muito boa do que é o T-SNE, obrigado. Mas eu não estou vendo respostas às minhas perguntas reais (Veja os pontos o ponto no post de abertura.)
Lyndon Branco
5
Isso não responde à pergunta.
Ameba diz Reinstate Monica
10

Fora da caixa, o tSNE possui alguns hiperparâmetros, sendo o principal deles a perplexidade. Lembre-se de que, heuristicamente, a perplexidade define uma noção de similaridade para o tSNE e uma perplexidade universal é usada para todos os pontos de dados. Você pode tentar gerar um conjunto de dados rotulado em que cada cluster tenha uma perplexidade muito diferente. Isso pode ser feito com uma mistura de gaussianos, com uma ampla gama de diferentes variações. Suponho que isso também causará problemas na implementação do tSNE em Barnes-Hut, que se baseia em dados de quartil e usando apenas os vizinhos mais próximos. O SNNE também possui um período inicial de relaxamento, que tenta passar agrupamentos entre si. Durante esse período, não há penalidade ou repulsa. Por exemplo, se seus dados parecerem uma massa emaranhada de macarrão (cada macarrão representa um determinado cluster), você ' será difícil calibrar a passagem inicial e duvido que o tSNE funcione bem. Em certo sentido, acho que isso sugere que o tSNE não funcionará bem se seus dados forem entrelaçados e residirem inicialmente em um espaço de baixa dimensão, digamos 5.

t

k

Alex R.
fonte