Eu tenho 40000 linhas de dados de texto do domínio da saúde. Os dados possuem uma coluna para texto (2 a 5 frases) e uma coluna para sua categoria. Eu quero classificar isso em 300 categorias. Algumas categorias são independentes, enquanto outras são um pouco relacionadas. A distribuição de dados entre categorias também não é uniforme, ou seja, algumas das categorias (cerca de 40 delas) têm menos dados sobre 2-3 linhas.
Estou anexando a probabilidade de log de cada classe / categorias. (OU distribuição de classes) aqui.
machine-learning
classification
nlp
text-mining
Alok Nayak
fonte
fonte
Respostas:
Em geral, um ponto de partida decente para problemas como esses é a classificação de Naive Bayes (NB) usando um modelo simples de saco de palavras. Aqui estão alguns slides que descrevem o NB aplicado ao processamento de linguagem natural . Não há nada de especial nessa abordagem, mas é muito fácil de implementar e dará a você um ponto de partida para expandir.
Depois de encontrar alguns resultados iniciais, assumindo independência entre seus recursos e seus rótulos de saída, você provavelmente terá uma noção melhor de onde o modelo é fraco. A partir desse ponto, você pode aplicar alguma engenharia de recursos (talvez TF-IDF ), bem como algum pós-processamento para lidar com amostras que são atribuídas a categorias relacionadas.
fonte