Eu tenho um problema de agrupar uma quantidade enorme de frases em grupos por seus significados. Isso é semelhante a um problema quando você tem muitas frases e deseja agrupá-las por seus significados.
Quais algoritmos são sugeridos para fazer isso? Não conheço o número de clusters com antecedência (e, à medida que mais dados forem chegando, os clusters também podem mudar), quais recursos são normalmente usados para representar cada frase?
Agora estou tentando os recursos mais simples com apenas uma lista de palavras e a distância entre as frases definidas como:
(A e B são conjuntos de palavras correspondentes nas frases A e B)
Faz algum sentido?
Estou tentando aplicar o algoritmo Mean-Shift da biblioteca scikit a essa distância, pois não requer um número de clusters com antecedência.
Se alguém aconselhar métodos / abordagens melhores para o problema - será muito apreciado, pois ainda sou novo no tópico.
fonte