No problema específico em que trabalho (uma competição), tenho a seguinte configuração: 21 recursos (numéricos em [0,1]) e uma saída binária. Eu tenho aproximadamente 100 mil linhas. A configuração parece ser muito barulhenta.
Eu e outros participantes aplicamos a geração de recursos por um tempo e a incorporação estocástica de vizinhos distribuídos em t se mostrou bastante poderosa nesse cenário.
Eu me deparei com este post "Como usar o t-SNE efetivamente", mas ainda não consigo realmente concluir sobre como escolher os hiperparâmetros melhores na minha configuração de classificação.
Existem regras práticas (número de recursos, dimensão da incorporação -> escolha da perplexidade)?
Apenas aplico configurações ad-hoc no momento, pois leva muito tempo para iterar várias configurações. Obrigado por qualquer comentário.
Respostas:
Deixe-me salientar que o que eu descrevo são heurísticas . Conforme mencionado no início do meu post, a inspeção manual dos resultados é uma maneira indispensável de avaliar a qualidade da redução / agrupamento de dimensionalidade resultante.
fonte
Geralmente, definimos a perplexidade para 5% do tamanho do conjunto de dados. Portanto, para um conjunto de dados com 100 mil linhas, eu começaria com uma perplexidade de 5000, ou pelo menos 1000, se você não tiver um computador de alto desempenho disponível. Nossos conjuntos de dados são da análise de citometria de fluxo, eles geralmente têm 50k a 500k pontos de dados, cada um com 10 a 20 valores numéricos.
fonte
Pode ser interessante para você dar uma olhada na "Seleção automática de perplexidade do t-SNE" de Cao e Wang :
fonte