Você pode usar pdftk
para isso. Mais informações: Como exportar e importar indicadores PDF .
Exporte os marcadores em PDF na linha de comando, assim:
pdftk C:\Users\Sid\Desktop\doc.pdf dump_data output C:\Users\Sid\Desktop\doc_data.txt
Importe marcadores PDF de um arquivo de dados como este:
pdftk C:\Users\Sid\Desktop\doc.pdf update_info C:\Users\Sid\Desktop\doc_data.txt output C:\Users\Sid\Desktop\updated.pdf
pdftk
formato de marcador é um pouco tedioso para escrever. Em vez disso eu criei o meu próprio script usando bash
, sed
, pdftk
e python3
. Confira neste repositório: https://github.com/SiddharthPant/booky
Então agora eu posso criar um arquivo de texto ( bkmrks.txt
) como este, que leva apenas 5 minutos para escrever, mesmo para um pdf de 1000 páginas.
{
Title1, 1
Title2, 2
{
Subtitle1, 3
Subtitle2, 4
{
SubSubtitle1, 5
...
}
}
}
e depois usar meu script
./booky.sh pdf_file.pdf bkmrks.txt
isso cria automaticamente um pdf ( pdf_file_new.pdf
) que contém meus favoritos.
Isso funcionará nos sistemas * nix se você estiver em uma máquina Windows. Em seguida, instale python3
e pdftk
use o booky.py
arquivo no repositório para converter bkmrks.txt
para um pdftk
formato compatível
python3 booky.py < bkmrks.txt > output.txt
e use o comando export para gerar um arquivo de dados despejado. Remova os favoritos anteriores desse arquivo e insira o conteúdo output.txt
usando uma pasta de cópia simples. E depois importe esses dados de volta.
A especificação para arquivos PDF está disponível como PDF para download gratuito da Adobe - ou pelo menos foi a última vez que verifiquei. No entanto, a maioria dos arquivos PDF possui os dados mais compactáveis neles compactados. Provavelmente, havia uma versão basicamente em PDF de texto simples, e se assim for, ainda será válida agora, mas obter um arquivo dessa forma pode ser um problema.
Embora eu não tenha feito isso, uma possibilidade muito provável (se você estiver disposto a pagar) é comprar o Acrobat Pro e usar os recursos de script Javascript embutidos nesse aplicativo. Para começar ...
http://acrobatusers.com/tutorials/2008/10/auto_bookmark_creation
Este tutorial mostra como criar favoritos automaticamente usando Javascript no Acrobat 7.0 Pro (a versão incluída no Creative Suite CS2). Embora isso esteja ficando um pouco antigo, a mesma técnica deve funcionar bem para versões mais recentes.
Os aplicativos da Adobe incluem uma biblioteca para leitura / gravação de arquivos de texto usando Javascript (algo que o Javascript não possui como padrão); portanto, é possível gravar seus próprios scripts de importação / exportação, embora não seja trivial para torná-los robustos.
fonte
Para exportar indicadores, sigo uma abordagem diferente que requer o uso do Microsoft OneNote:
Abro o leitor de PDF (uso a versão gratuita do Foxit) com a estrutura de favoritos visível e, em seguida, no OneNote, peço para tirar uma captura instantânea e selecione a estrutura de favoritos do Foxit.
De volta ao OneNote, seleciono a opção "Copiar texto da imagem" (no menu que aparece após clicar com o botão direito do mouse na imagem da captura instantânea) e colo-a na lateral, para corrigir o recuo (geralmente com marcadores).
fonte
HandyOutline. 1 arraste, 1 clique, pronto. https://sourceforge.net/projects/handyoutlinerfo/ . Livre. Recuos sub-marcadores. Não requer nenhum leitor / editor de PDF. Edite também, exporte todos os detalhes para o texto (copie para o Word, escreva uma macro para organizá-la em um documento do Word totalmente funcional) ou XML, repagine e importe para PDF. Dev merece doações.
Marcadores PDF-Xchange Editor (substituído PDFViewer) duplicados / perdidos aleatoriamente exportados para texto
O JPDF exigia Java, lixo de formatação exportado, não pôde limpá-lo para obter apenas os nomes
O PDFtk me deu dor de cabeça só de olhar para as instruções
:-)
fonte
Encontrei outra solução bastante "estúpida" para copiar todos os favoritos em um PDF como texto para uso em outros lugares. No Acrobat Pro (para Mac OS), não há como selecionar todos os favoritos e copiá-los / colá-los em um processador de texto. No entanto, você pode exportar o PDF inteiro como um arquivo HTML com a opção "uma única página HTML + adicionar quadro de navegação com base nos favoritos". Em seguida, abra o HTML em um navegador, selecione todo o texto no quadro de navegação e copie / cole-o em um processador de texto ...
fonte
Para ler todos os favoritos de um PDF em um arquivo de texto, você pode usar este comando com
pdftk
:Em seguida, usei o regex no Notepad ++ para remover as peças extras. A seguir, substituí por uma sequência vazia (em ordem) e acabei com uma lista de indicadores (não se esqueça de substituir usando regex no seu editor de texto):
Se você deseja remover os números, substitua esta expressão:
fonte