Sou programador sem formação estatística e atualmente estou procurando métodos de classificação diferentes para um grande número de documentos diferentes que quero classificar em categorias predefinidas. Eu tenho lido sobre kNN, SVM e NN. No entanto, tenho alguns problemas para começar. Quais recursos você recomenda? Eu sei muito bem o cálculo de variáveis únicas e multivariáveis, então minha matemática deve ser forte o suficiente. Também possuo o livro de Bishop sobre Redes Neurais, mas provou ser um pouco denso como introdução.
32
Um excelente texto introdutório que aborda os tópicos mencionados é Introdução à recuperação de informações , disponível on-line em texto completo gratuitamente.
fonte
A rede neural pode ficar lenta para um grande número de documentos (também agora está praticamente obsoleto).
E você também pode verificar Floresta Aleatória entre os classificadores; é bastante rápido, dimensiona bem e não precisa de ajustes complexos.
fonte
Se você vem do lado da programação, uma opção é usar o Natural Language Toolkit (NLTK) para Python. Há um livro da O'Reilly, disponível gratuitamente , que pode ser uma introdução menos densa e mais prática à criação de classificadores para documentos, entre outras coisas.
Se você está interessado em aprofundar o aspecto estatístico, o livro de Roger Levy em andamento, Modelos Probabilísticos em Estudo da Linguagem , pode não ser ruim para ler. Foi escrito para estudantes de graduação em cogsci / compsci, começando com técnicas estatísticas de PNL.
fonte
Em primeiro lugar, posso recomendar o livro Fundamentos do processamento estatístico da linguagem natural, de Manning e Schütze.
Os métodos que eu usaria são distribuições de frequência de palavras e modelos de linguagem ngram. O primeiro funciona muito bem quando você deseja classificar no tópico e seus tópicos são específicos e especializados (com palavras-chave). A modelagem Ngram é a melhor maneira de classificar estilos de escrita, etc.
fonte
Naive Bayes é geralmente o ponto de partida para a classificação de texto, aqui está um artigo do Dr. Dobbs sobre como implementar uma. Muitas vezes, também é o ponto final da classificação de texto, porque é tão eficiente e paralelo, que o SpamAssassin e o POPFile o utilizam.
fonte