Eu tenho um conjunto de dados com ~ 1M linhas e ~ 500K recursos esparsos. Quero reduzir a dimensionalidade para algum lugar da ordem dos recursos densos de 1 a 5 mil.
sklearn.decomposition.PCA
não funciona com dados esparsos e tentei usar, sklearn.decomposition.TruncatedSVD
mas obtive um erro de memória rapidamente. Quais são as minhas opções para redução eficiente da dimensionalidade nessa escala?
fonte
Caso as pessoas que se deparem com este post achem que o UMAP não é eficiente o suficiente, aqui estão algumas outras técnicas que me deparei que são ainda mais eficientes (mas não de alta qualidade):
sklearn.random_projection
sklearn.feature_extraction.FeatureHasher
fonte