Grep no Microsoft Word?
Eu gostaria de extrair todas as linhas com uma determinada sequência de caracteres de um documento do Word. No mundo unix ... grep faz isso sem falhas. O Windows é menos que óbvio para mim.
microsoft-word
grep
fretje
fonte
fonte
catdoc
segfaults em todos os arquivos.doc
/.docx
que eu dou eantiword
apenas diz que meu documento "não é um documento do Word". Você conhece outras opções?docx2txt
existe nos repositórios Debian - pode funcionar. Também examinaria o utilitário de conversão de formato de linha de comando OpenOffice / LibreOffice (unoconv), que poderia ser usado para o mesmo objetivo.Eu sei que isso parece primitivo, mas o que está impedindo você de salvar o arquivo como .txt e, em seguida, rasgá-lo ao seu gosto.
fonte
O que significa "linha" em um contexto do Word? A linha exibida, que muda se você fizer alguma coisa na formatação da página? O parágrafo? Algo mais?
Você pode fazer várias coisas com as funções de localizar e substituir do Word, incluindo alterar a formatação e outras coisas não óbvias, mas todas elas atuarão apenas no próprio texto de localização, não em qualquer texto ao redor.
fonte
Há suporte para documentos do MS - Word, PowerPoint, Excel - no CRGREP, que desenvolvi como uma ferramenta de código- fonte livre. Ele também recebe outras coisas difíceis de pesquisar, como tabelas de banco de dados, imagens, áudio, arquivos, PDF e combinações deles. Diverta-se.
fonte
O PowerGREP fará exatamente isso por você e rápido - mas não de graça. Vale cada centavo, porém, na minha opinião. Além disso, há uma avaliação gratuita de 30 dias.
fonte
Não tenho representante suficiente para comentar, mas eu posso ver esse problema doc vs docx discutido para que qualquer pessoa que esteja perseguindo o tópico (como eu era) possa achar isso útil.
Você não precisa de uma ferramenta especial para arquivos docx. docx são arquivos XML compactados.
Para extrair e remover o XML, tente algo baseado em
da linha de comando fu
fonte
Solução rápida, gratuita, de código aberto e multiplataforma: https://github.com/phiresky/ripgrep-all
fonte