Obrigado por todas as respostas, pessoal. Com sua ajuda, consegui compilar uma lista de comandos que podem extrair a contagem de páginas de quase todos os documentos relevantes do escritório:
DOCX / PPTX
unzip -p 'sample.docx' docProps/app.xml | grep -oP '(?<=\<Pages\>).*(?=\</Pages\>)'
unzip -p 'sample.pptx' docProps/app.xml | grep -oP '(?<=\<Slides\>).*(?=\</Slides\>)'
Nota : unzip
pode ser instalado com sudo apt-get install unzip
.
DOC / PPT
wvSummary sample.doc | grep -oP '(?<=of Pages = )[ A-Za-z0-9]*'
wvSummary sample.ppt | grep -oP '(?<=of Slides = )[ A-Za-z0-9]*'
Nota : wvSummary
(diferencia maiúsculas de minúsculas!) Faz parte do wv
pacote. Instale-o com sudo apt-get install wv
.
ODT
unzip -p sample.odt meta.xml | grep -oP '(?<=page-count=")[ A-Za-z0-9]*'
PDF
pdfinfo sample.pdf | grep -oP '(?<=Pages: )[ A-Za-z0-9]*'
Nota: pdfinfo
faz parte poppler-utils
e deve vir pré-instalado no Ubuntu.
DJVU
djvused -e "n" sample.djvu
Nota: djvused
faz parte do djvulibre-bin
pacote e pode ser instalado com sudo apt-get install djvulibre-bin
.
Não encontrei uma maneira de extrair
odt
as informações do arquivopdfinfo
, mas você pode criar um script rápido para usarpdfinfo
com osodt
arquivos, converter cada arquivo odt em PDF e, posteriormente, excluir o arquivo convertido, caso não o utilize:Espero que isso tenha ajudado.
fonte