Passei três dias brincando tm
depois de ler um rascunho de um amigo, onde ele explorou um corpus de texto com o UCINET, mostrando nuvens de texto, gráficos de rede em dois modos e decomposição de valor único (com gráficos, usando Stata). Corri sob um grande número de questões: no Mac OS X, há problemas com o Java por trás de bibliotecas como Snowball (stemming) ou Rgraphviz (gráficos).
Poderia alguém ponto fora não pacotes - que eu olhei tm
, wordfish
e wordscores
, e saber sobre NLTK - mas a pesquisa, se possível com código, em dados textuais, que usa com sucesso tm
ou qualquer outra coisa para analisar dados como debates parlamentares ou documentos legislativos? Não consigo encontrar muito sobre o assunto e muito menos código para aprender.
Meu próprio projeto é um debate parlamentar de dois meses, com essas variáveis informadas em um arquivo CSV: sessão parlamentar, orador, grupo parlamentar, texto de intervenção oral. Procuro divergências entre os oradores e, especialmente, entre grupos parlamentares no uso de termos raros e menos raros, por exemplo, "conversa sobre segurança" contra conversa sobre "liberdades civis".
fonte
Respostas:
A dissertação de doutorado do autor da tm, Ingo Feinerer da Áustria, está escrita no idioma inglês. Os capítulos 7 a 10 deste documento contêm aplicativos do pacote tm, com crescente complexidade.
http://epub.wu.ac.at/1923/
Leia toda a capa do documento a cobrir. Observe, no entanto, que o documento foi escrito em 2008 e, desde então, houve algumas alterações na API, por exemplo, a tese de doutorado menciona uma função
tmMap()
que foi renomeadatm_map()
. Portanto, os exemplos de código não funcionarão como estão, não é possível usar o recortar e colar para experimentá-los.Você também pode ir para
http://tm.r-forge.r-project.org/users.html
e pesquise nessa página a frase "escreveu um artigo" e você encontrará muitos links. Eu li apenas um dos artigos, "detecção automática de tópicos nas letras das músicas". Muito interessante e engraçado.
fonte
Um bom lugar para começar pode ser a lista de publicações no site
tm
, como esta:A lista de referências no final de cada uma dessas publicações inclui aplicativos bem-sucedidos de
tm
, que é o que você parece estar procurando. Existem muitos - especialmente se você seguir as referências das referências.Por exemplo, aqui está um que pode ser relevante:
Boa sorte.
fonte
tm
do meu lado. Ainda assim, muito obrigado :)