Estou procurando projetar um sistema que, com um parágrafo de texto, possa categorizá-lo e identificar o contexto:
- É treinado com parágrafos de texto gerados pelo usuário (como comentários / perguntas / respostas)
- Cada item do conjunto de treinamento será marcado com. Assim, por exemplo ("categoria 1", "parágrafo de texto")
- Haverá centenas de categorias
Qual seria a melhor abordagem para construir esse sistema? Eu estive procurando algumas opções diferentes e a seguir está uma lista de possíveis soluções. O Word2Vec / NN é a melhor solução no momento?
- Rede de tensores neurais recursivos alimentada com dados médios do Word2Vec
- RNTN e o vetor de parágrafo ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
- TF-IDF usado em uma rede Deep Belief
- TF-IDF e regressão logística
- Saco de palavras e classificação Naive Bayes
Respostas:
1) A entropia máxima (regressão logística) em vetores TFIDF é um bom ponto de partida para muitas tarefas de classificação da PNL.
2) O Word2vec é definitivamente algo que vale a pena tentar e comparar com o modelo 1. Eu sugeriria o uso do sabor do Doc2Vec para examinar sentenças / parágrafos.
Quoc Le e Tomas Mikolov. Representações distribuídas de frases e documentos. http://arxiv.org/pdf/1405.4053v2.pdf
Gensim (python) tem um bom modelo Doc2vec.
fonte