Bons livros sobre mineração de texto?

11

Olá, queria saber se existem bons livros sobre mineração e classificação de texto com alguns estudos de caso ?. Se não, alguns trabalhos / revistas acessíveis ao público serviriam. Se eles ilustram seus exemplos com R ainda melhor. Não estou procurando manual passo a passo, mas algo que ilustra os prós e contras de várias abordagens de mineração de texto para várias classes de problemas.

dasman
fonte

Respostas:

5

Confira http://lintool.github.com/MapReduceAlgorithms/MapReduce-book-final.pdf Processamento de texto intensivo em dados com o MapReduce - este livro é bastante acadêmico, mas abrange várias técnicas de processamento de texto comumente usadas e como elas podem ser paralisadas em grandes conjuntos de dados usando o mapa reduzir.

www.rtexttools.com Este é um excelente pacote R que ajuda você a aplicar uma ampla variedade de algoritmos de classificação (incluindo alguns métodos de ensemble) à análise de texto. e

Ross Farrelly
fonte
4
Para tornar essa resposta independente, você se importaria em fornecer um breve resumo de cada link?
chl
4

Li recentemente quatro livros neste campo:

Feldman, R. e James Sanger, J. (2006). Manual de mineração de texto: abordagens avançadas na análise de dados não estruturados. Cambridge University Press.

Este enfoca exemplos práticos, software e mineração de texto aplicada. Ele fornece vários exemplos de uso prático da mineração de texto. Pode ser interessante se você quiser ler sobre aplicativos comerciais de ferramentas de mineração de texto.

Srivastava, AN e Sahami, M. (2009). Mineração de texto: classificação, cluster e aplicativos. Chapman & Hall / CRC.

É uma série de trabalhos de pesquisa que são usados ​​como exemplos de uso de diferentes ferramentas de mineração de texto. É bastante focado como no teste introdutório.

Weiss, SM, Indurkhya, N., Zhang, T. e Damerau, F. (2005). Mineração de Texto: Métodos Preditivos para Analisar Informações Não Estruturadas. Springer.

Texto muito introdutório que descreve algumas questões gerais.

Manning, C. (1999). Fundamentos do processamento estatístico de linguagem natural. MIT Pressione.

Este é o melhor livro que eu já li sobre esse assunto. Está bem escrito, claro, vai mais fundo na teoria, mas de maneira prática. Começa com uma introdução geral, mas analisa alguns dos métodos e algoritmos mais usados. Se você tivesse que escolher apenas um livro, eu recomendaria este.

Você também pode encontrar facilmente vários livros sobre processamento de linguagem natural e mineração de texto que se concentram no uso de R ( biblioteca tm ) ou Python ( biblioteca nltk ).

Tim
fonte
2

Pode não ser exatamente o que você está procurando, mas o Mastering Regular Expressions, de Jeffrey Friedl, é uma excelente fonte para aprender como usar expressões regulares para analisar texto. Ele não discute técnicas de modelagem, mas, armado com as contagens da aplicação de expressões regulares, você pode aplicar uma variedade de abordagens de modelagem padrão.

Charlie
fonte
2

Um livro que volto repetidamente a idéias é o Text Mining: Predictive Methods ... de Sholom Weiss. Ele tem muitas idéias para abordar problemas que considero úteis, já que às vezes a mineração de texto trata de tentar coisas diferentes - dicionário Global x Local, número de recursos a serem mantidos etc. Eu considero este livro um bom gerador de idéias. Também possui estudos de caso.

Wake2Sleep
fonte
0

Eu sugiro que a PNL em http://www.nltk.org/ seja gratuita e faça casais com NLTK em python. muito bem sucedida

Pradi KL
fonte