Estou trabalhando em um pequeno corpus (200M) de texto, que quero explorar com algumas análises de cluster. Quais livros ou artigos sobre esse assunto você recomendaria?
Estou trabalhando em um pequeno corpus (200M) de texto, que quero explorar com algumas análises de cluster. Quais livros ou artigos sobre esse assunto você recomendaria?
Pode valer a pena olhar para os livros de MW Berry:
Eles consistem em séries de papéis aplicados e de revisão. O mais recente parece estar disponível em PDF no seguinte endereço: http://bit.ly/deNeiy .
Aqui estão alguns links relacionados à CA aplicados à mineração de texto:
Você também pode olhar para a Análise Semântica Latente , mas veja minha resposta: Trabalhando com um problema de cluster .
Localizando grupos nos dados. Uma Introdução à Análise de Cluster dos professores Leonard Kaufman e Peter J. Rousseeuw.
Estou lendo o livro e o acho muito útil porque:
Nosso objetivo era escrever um livro aplicado para o usuário em geral. Queríamos disponibilizar a análise de cluster para pessoas que não possuem necessariamente uma sólida formação matemática ou estatística.
Ele fornece conteúdo teórico para entender as funções disponíveis no R
pacote Cluster .
Os capítulos podem ser lidos individualmente, de acordo com o método de interesse do cluster.
A exceção é o capítulo 3, que se baseia no capítulo 2
Os capítulos do livro são:
Referências:
Kaufman, L. & Rousseeuw, PJ (2005). Localizando grupos nos dados. Uma introdução à análise de cluster (p. 342). John Wiley & Sons Inc. Empresas
Maechler, M. (2013). Análise de Cluster Extended Rousseeuw et al. CRAN.
Este capítulo da Introdução à mineração de dados está disponível online e oferece uma boa visão geral.
fonte
A Análise de Cluster, de Brian S. Everitt, é um bom tratamento aplicado ao comprimento de livro da Análise de Cluster.
fonte
Não especificamente sobre mineração de texto, mas gostei bastante de "Análise Exploratória de Dados com MATLAB", de Martinez e Martinez.
fonte
Outro livro aprofundado que vale a pena examinar: Handbook of Cluster Analysis, de Hennig et al. (2015)
fonte