Eu tenho 40000 linhas de dados de texto do domínio da saúde. Os dados possuem uma coluna para texto (2 a 5 frases) e uma coluna para sua categoria. Eu quero classificar isso em 300 categorias. Algumas categorias são independentes, enquanto outras são um pouco relacionadas. A distribuição de dados...