Olá, esta é minha primeira pergunta na pilha de ciência de dados. Eu quero criar um algoritmo para classificação de texto. Suponha que eu tenha um grande conjunto de textos e artigos. Vamos dizer cerca de 5000 textos simples. Primeiro, uso uma função simples para determinar a frequência de todas as quatro e acima das palavras dos caracteres. Eu então uso isso como o recurso de cada amostra de treinamento. Agora, quero que meu algoritmo seja capaz de agrupar os conjuntos de treinamento de acordo com seus recursos, que aqui é a frequência de cada palavra no artigo. (Observe que, neste exemplo, cada artigo teria seu próprio recurso exclusivo, pois cada artigo possui um recurso diferente, por exemplo, um artigo tem 10 "água e 23" puro "e outro tem 8" política "e 14" alavancagem "). Você pode sugerir o melhor algoritmo de cluster possível para este exemplo?
fonte