Perguntas com a marcação «text-mining»

14
Exemplos de mineração de texto com R (pacote tm)

Passei três dias brincando tmdepois de ler um rascunho de um amigo, onde ele explorou um corpus de texto com o UCINET, mostrando nuvens de texto, gráficos de rede em dois modos e decomposição de valor único (com gráficos, usando Stata). Corri sob um grande número de questões: no Mac OS X, há...

13
Em que n gramas n se tornam contraproducentes?

Ao fazer o processamento da linguagem natural, pode-se pegar um corpus e avaliar a probabilidade da próxima palavra ocorrer em uma sequência de n. n é geralmente escolhido como 2 ou 3 (bigrams e trigramas). Existe um ponto conhecido em que o rastreamento dos dados para a enésima cadeia se torna...

11
Bons livros sobre mineração de texto?

Olá, queria saber se existem bons livros sobre mineração e classificação de texto com alguns estudos de caso ?. Se não, alguns trabalhos / revistas acessíveis ao público serviriam. Se eles ilustram seus exemplos com R ainda melhor. Não estou procurando manual passo a passo, mas algo que ilustra os...

10
Essa interpretação da escarsidade é precisa?

De acordo com a documentação da removeSparseTermsfunção do tmpacote, é isso que a escarsidade implica: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix...

9
Como executar vários testes qui-quadrado post-hoc em uma tabela 2 X 3?

Meu conjunto de dados é composto pela mortalidade total ou pela sobrevivência de um organismo em três tipos de locais, costeiros, canais intermediários e offshore. Os números na tabela abaixo representam o número de sites. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1...

9
Como comparar eventos observados x eventos esperados?

Suponha que eu tenha uma amostra de frequências de 4 eventos possíveis: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 e tenho as probabilidades esperadas de meus eventos ocorrerem: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Com a soma das frequências observadas dos meus quatro eventos (18), posso calcular as...