Olá, queria saber se existem bons livros sobre mineração e classificação de texto com alguns estudos de caso ?. Se não, alguns trabalhos / revistas acessíveis ao público serviriam. Se eles ilustram seus exemplos com R ainda melhor. Não estou procurando manual passo a passo, mas algo que ilustra os prós e contras de várias abordagens de mineração de texto para várias classes de problemas.
fonte
Li recentemente quatro livros neste campo:
Este enfoca exemplos práticos, software e mineração de texto aplicada. Ele fornece vários exemplos de uso prático da mineração de texto. Pode ser interessante se você quiser ler sobre aplicativos comerciais de ferramentas de mineração de texto.
É uma série de trabalhos de pesquisa que são usados como exemplos de uso de diferentes ferramentas de mineração de texto. É bastante focado como no teste introdutório.
Texto muito introdutório que descreve algumas questões gerais.
Este é o melhor livro que eu já li sobre esse assunto. Está bem escrito, claro, vai mais fundo na teoria, mas de maneira prática. Começa com uma introdução geral, mas analisa alguns dos métodos e algoritmos mais usados. Se você tivesse que escolher apenas um livro, eu recomendaria este.
Você também pode encontrar facilmente vários livros sobre processamento de linguagem natural e mineração de texto que se concentram no uso de R ( biblioteca tm ) ou Python ( biblioteca nltk ).
fonte
Pode não ser exatamente o que você está procurando, mas o Mastering Regular Expressions, de Jeffrey Friedl, é uma excelente fonte para aprender como usar expressões regulares para analisar texto. Ele não discute técnicas de modelagem, mas, armado com as contagens da aplicação de expressões regulares, você pode aplicar uma variedade de abordagens de modelagem padrão.
fonte
Um livro que volto repetidamente a idéias é o Text Mining: Predictive Methods ... de Sholom Weiss. Ele tem muitas idéias para abordar problemas que considero úteis, já que às vezes a mineração de texto trata de tentar coisas diferentes - dicionário Global x Local, número de recursos a serem mantidos etc. Eu considero este livro um bom gerador de idéias. Também possui estudos de caso.
fonte
Eu sugiro que a PNL em http://www.nltk.org/ seja gratuita e faça casais com NLTK em python. muito bem sucedida
fonte