Exemplos de mineração de texto com R (pacote tm)

14

Passei três dias brincando tmdepois de ler um rascunho de um amigo, onde ele explorou um corpus de texto com o UCINET, mostrando nuvens de texto, gráficos de rede em dois modos e decomposição de valor único (com gráficos, usando Stata). Corri sob um grande número de questões: no Mac OS X, há problemas com o Java por trás de bibliotecas como Snowball (stemming) ou Rgraphviz (gráficos).

Poderia alguém ponto fora não pacotes - que eu olhei tm, wordfishe wordscores, e saber sobre NLTK - mas a pesquisa, se possível com código, em dados textuais, que usa com sucesso tmou qualquer outra coisa para analisar dados como debates parlamentares ou documentos legislativos? Não consigo encontrar muito sobre o assunto e muito menos código para aprender.

Meu próprio projeto é um debate parlamentar de dois meses, com essas variáveis ​​informadas em um arquivo CSV: sessão parlamentar, orador, grupo parlamentar, texto de intervenção oral. Procuro divergências entre os oradores e, especialmente, entre grupos parlamentares no uso de termos raros e menos raros, por exemplo, "conversa sobre segurança" contra conversa sobre "liberdades civis".

Pe.
fonte

Respostas:

7

A dissertação de doutorado do autor da tm, Ingo Feinerer da Áustria, está escrita no idioma inglês. Os capítulos 7 a 10 deste documento contêm aplicativos do pacote tm, com crescente complexidade.

http://epub.wu.ac.at/1923/

O capítulo 7 apresenta uma aplicação do tm analisando a lista de discussão do R-devel 2006. O capítulo 8 mostra uma aplicação de mineração de texto para empresas e comércio eletrônico de consumo. O capítulo 9 é uma aplicação do tm para investigar as jurisdições do tribunal administrativo supremo austríaco relativas a taxas e impostos. [...] . O capítulo 10 mostra um aplicativo para atribuição de estilometria e autoria no conjunto de dados do Mágico de Oz.

Leia toda a capa do documento a cobrir. Observe, no entanto, que o documento foi escrito em 2008 e, desde então, houve algumas alterações na API, por exemplo, a tese de doutorado menciona uma função tmMap()que foi renomeada tm_map(). Portanto, os exemplos de código não funcionarão como estão, não é possível usar o recortar e colar para experimentá-los.

Você também pode ir para

http://tm.r-forge.r-project.org/users.html

"Na tentativa de informar os novos usuários sobre os aplicativos tm existentes, este site visa fornecer uma lista (alfabética incompleta) de usuários e seus comentários. Os usuários conhecidos variam de institutos de pesquisa a empresas e indivíduos".

e pesquise nessa página a frase "escreveu um artigo" e você encontrará muitos links. Eu li apenas um dos artigos, "detecção automática de tópicos nas letras das músicas". Muito interessante e engraçado.

knb
fonte
Penso que a dissertação de Feinerer é o documento que mais me ajudou até agora. Obrigado!
pe.
5

Um bom lugar para começar pode ser a lista de publicações no site tm, como esta:

A lista de referências no final de cada uma dessas publicações inclui aplicativos bem-sucedidos de tm, que é o que você parece estar procurando. Existem muitos - especialmente se você seguir as referências das referências.

Por exemplo, aqui está um que pode ser relevante:

Feinerer I, Hornik K (2007). \ Text Mineração de Jurisdições do Supremo Tribunal Administrativo. " Klassikation eV, 7 de março {9, 2007, Freiburg, Alemanha), "Estudos em Classicização, Análise de Dados e Organização do Conhecimento. Springer-Verlag.

Boa sorte.

Um homem
fonte
Obrigado pelas referências. O nível de detalhe, no entanto, é insuficiente nessas publicações - tive que ler a dissertação de Feinerer para obter detalhes suficientes sobre como operar tmdo meu lado. Ainda assim, muito obrigado :)
pe.