Existe uma maneira de obter uma contagem de palavras de linguagem natural no Markdown (ou melhor, Pandoc Markdown), através da linha de comando? É possível apenas usar wc
para obter uma estimativa muito aproximada, mas wc
é ingênuo e conta qualquer coisa cercada de espaço em branco como uma palavra. Isso inclui coisas como formatação de cabeçalho, marcadores e URLs em links.
Qual seria o ideal seria remover todas as formatações de marcação, (incluindo citações do Pandoc, se possível), e então passar isso wc
, mas não consigo encontrar uma maneira de fazer isso, como o pandoc
formato de saída de texto sem formatação ainda inclui muito estilo de marcação.
linux
markdown
pandoc
word-count
naught101
fonte
fonte
wc
no arquivo resultante - algo como isto: stackoverflow.com/questions/761824/…Respostas:
Existe um novo filtro lua para isso: https://pandoc.org/lua-filters.html#counting-words-in-a-document
Salve o seguinte código como
wordcount.lua
e chame pandoc assim:
fonte
Uma solução um tanto manual:
pandoc
converter o arquivo de remarcação para um documento do MS Word (*.docx
) ou documento do OpenOffice / LibreOffice Writer (*.odt
)1 O OpenOffice provavelmente funcionaria da mesma forma, mas eu não testei isso.
fonte