Como converter um arquivo pdf para um arquivo odt?

32

Quero converter um .pdfarquivo em um .odtarquivo para poder convertê-lo ainda mais em um .docarquivo. Existe algum software / script que possa fazer isso. Eu tentei copiar o conteúdo do .pdfarquivo e colei no liberoffice writer a formatação não é preservada.

O documento é confidencial, portanto, prefiro não usar nenhum serviço on-line para a conversão.

Qualquer ajuda é muito apreciada.

Ankit
fonte
Relacionado (mas não duplicado!): Como converter um odt para pdf?
Eliah Kagan 11/01
1
Para perguntas específicas do LIBREOFFICE / OpenOffice, recomendo ask.libreoffice.org
Bucic

Respostas:

15

Fiquei irritado com a falta de um conversor gratuito de PDF para ODT. Eu nem precisava de nada complicado. Apenas uma ferramenta que gera arquivos ODT que eu posso anotar no LibreOffice (por exemplo, para preencher formulários).

Eu sei como fazer isso manualmente, convertendo o documento PDF em arquivos gráficos e importando-os para o LibreOffice, mas isso fica tedioso rapidamente.

Então, finalmente escrevi um pequeno script de shell que executa todas as etapas necessárias automaticamente. Você pode encontrá-lo em https://github.com/gutschke/pdf2odt

Ele pode receber qualquer número de arquivos PDF e de imagem como entrada e gera um arquivo ODT que pode ser aberto e editado no LibreOffice. As imagens são exibidas como plano de fundo da página, para que você possa escrevê-las livremente. Cada imagem é associada ao seu próprio estilo de página. Lembre-se disso ao inserir quebras de página e ajuste o estilo da página conforme necessário.

Testei o script no Linux e no Mac. Dado que ele precisa apenas de um punhado de ferramentas razoavelmente padrão, deve ser bastante portátil.

gutschke
fonte
Este script faz screenshots de cada página e parcelas-los para o formato de destino, graças para o script Gutschke
Oliver
Eu tinha usado pdf2ooalguns anos atrás, mas agora parece produzir arquivos corrompidos para o LibreOffice. Este script faz isso e muito mais - obrigado!
Eacousineau 15/07/2015
3
Infelizmente, o script pdf2odt se converte em um formato de imagem usado como plano de fundo ODT. Não espere poder "editar" qualquer texto original.
Richard Elkins
13

Você pode dar uma olhada PDF Utilities(poppler-utils via Synaptic ou apt-get), que inclui pdftotext :

Poppler é uma biblioteca de renderização de PDF baseada no visualizador de PDF em Xpdf.

Este pacote contém utilitários de linha de comando (baseados no Poppler) para obter informações de documentos PDF, convertê-los em outros formatos ou manipulá-los:
* pdfdetach - lista ou extrai arquivos incorporados (anexos)
* pdffonts - analisador de fontes
* pdfimages - extrator de imagem
* pdfinfo - informações do documento
* pdfseparate - ferramenta de extração de página
* pdftocairo - conversor de PDF para PNG / JPEG / PDF / PS / EPS / SVG usando o Cairo
* pdftohtml - conversor de PDF para HTML
* pdftoppm - PDF para PPM / Conversor de imagem PNG / JPEG
* pdftops - conversor de PDF para PostScript (PS)
* pdftotext - extração de texto
* pdfunite - ferramenta de fusão de documentos

Obviamente, o sucesso dependerá de como o arquivo pdf foi gerado. Se você conseguir o que deseja como um arquivo de texto, poderá salvá- lo como um arquivo .odt.

Edit: Eu esqueci de fornecer a fonte para a citação. É na guia de descrição no Synaptic forPDF Utilities (based on Poppler).


fonte
3
A partir desta lista, pdftohtmldeve ser o mais adequado para a tarefa, porque o HTML pode ser formatado. Em seguida, o HTML pode ser convertido em ODT ou DOC.
imz - Ivan Zakharyaschev 11/01
10

O LibreOffice é capaz de importar .pdf arquivos. Basta abri-lo em uma versão atual do LibreOffice para obter melhores resultados. No entanto, ele abrirá o documento como um desenho, e você poderá convertê-lo apenas em um dos formatos de imagem suportados, não como um documento do Writer.

Naturalmente, nem toda formatação é preservada, mas pelo menos algumas.

dobrador
fonte
1
Eu tentei recentemente, e simplesmente horrível, não economiza nem um pouco na formatação. Além disso, torna o texto ilegível.
Hi-Angel
3

Se o pacote poppler-utils estiver instalado, o script Nautilus abaixo (a ser colocado na pasta ~ / .gnome2 / nautilus-scripts como um arquivo executável) ajudará a converter o arquivo PDF em HTML (a opção "-i" pode ser excluída para incluir imagens também), que podem ser abertas com o LibreOffice Writer e salvas como ODT embora o sucesso da conversão de formatação dependa muito de como o PDF é criado.

http://ubuntuone.com/6xI1afyu6QdQvgdCGn0kym

Sadi
fonte
Obrigado por este script útil. Apenas uma pequena observação (de man pdftohtml): -noframes : generate no frames. Not supported in complex output mode.Portanto -noframes, não terá nenhum efeito com o -cconjunto.
precisa saber é o seguinte
2
Obrigado, removi esta opção redundante do meu script agora. Um script bash zenity-powered para fornecer uma interface gráfica para todas estas opções seria muito bom que parece ;-)
Sadi
#MHC, parece que esta informação está errada; se não incluirmos -noframes, obteremos arquivos html separados para páginas em pdf; então eu o inseri novamente no meu script.
Sadi
Isso é estranho. Deve haver um erro na documentação então. Vou mudar minha cópia do script de acordo. Obrigado pela atenção!
precisa
3

Experimente o Calibre. Ele converte em html e depois em outros formatos. Ele fez um bom trabalho em um arquivo grande (183 páginas) que eu teria que imprimir.

No meu caso, converti-o para um epub, mas, por diversão, converti-o para um .docx que resultou muito bem.

Christopher
fonte