Para linguistas e muitos outros cientistas, analisar a frequência das palavras que aparecem em um texto é uma ótima ferramenta. Alguns editores de texto comerciais e alguns sites fornecem essa ferramenta.
A análise da frequência das palavras, classifique as palavras em ordem decrescente em relação à sua frequência. Por exemplo neste texto
Emacs Stack Exchange is a question and answer site for those using, extending, or developing the emacs text editor. It's built and run by you as part of the Stack Exchange network of Q&A sites. With your help, we're working together to build a library of detailed answers to every question about emacs.
temos:
56 words
9: punctuation marks
3: ,
3: .
3: a
3: emacs
3: of
2: '
2: and
2: exchange
2: question
2: stack
2: the
2: to
1: &
1: about
1: answer
1: answers
1: as
1: build
1: built
1: by
1: detailed
1: developing
1: editor
1: every
1: extending
1: for
1: help
1: is
1: it
1: library
1: network
1: or
1: part
1: q
1: re
1: run
1: s
1: site
1: sites
1: text
1: those
1: together
1: using
1: we
1: with
1: working
1: you
1: your
Gostaria de saber se já existe um pacote que possa ser usado para fornecer essas estatísticas.
PS: Eu já fiz perguntas diferentes no mesmo espírito e uma excelente resposta foi fornecida (eu gostaria de votar mais, se puder).
Respostas:
O formato da saída (tabela de modo organizacional) é inspirado no link da sua pergunta.
fonte
word-stats
: você precisa avaliar todas elas.punctuation-marks
já definido na primeira forma.(require 'cl)
para usar oincr
comando.cl-incf
vez deincf
e exigircl-lib
explicitamente.Avalie o código a seguir e digite Mx word-frequency em um buffer com o texto. Você receberá um buffer com o número de ocorrência de palavras e o valor percentual.
fonte