Digitalize muitas páginas diretamente em um PDF

36

Existe algum programa fácil de usar no Ubuntu que pode digitalizar muitas páginas diretamente em um arquivo PDF?

pupeno
fonte
Imaginando, existem qualificações especiais necessárias para scanners / impressoras que eu gostaria de usar no Ubuntu?
JFW
@JFW, aqui está uma lista de dispositivos suportados pelo XSane, o back-end usado pela maioria dos scanners do Ubuntu. As impressoras / scanners / copiadoras HP parecem uma boa opção confiável, se você estiver procurando.
poolieby

Respostas:

38

A idéia de ter um utilitário de digitalização simples estava por trás do desenvolvimento de, bem, o Simple Scan - a ferramenta de digitalização instalada por padrão a partir do 10.04 (Aplicativos, Gráficos, Simple Scan). texto alternativo

Basta digitalizar quantas páginas quiser e escolher PDF como formato de arquivo ao salvar.

Outro programa um pouco menos simples que oferece recursos adicionais como reconhecimento de texto é o gscan2pdf , também nos repositórios. texto alternativo

Marcel Stimberg
fonte
3
+1 para o Simple Scan - é tão fácil e simples, mas também muito poderoso - é particularmente adequado para o trabalho que você mencionou.
8128
6

"Fácil de usar" está nos olhos do usuário, mas xsanefornece essa funcionalidade. Escolha várias páginas onde diz visualizador (ou pressione CTRL-M), e não deve ser muito difícil descobrir a partir daí.

Karl Bielefeldt
fonte
1
Pessoalmente, vejo o xsane longe de ser fácil de usar ... #
8128/03
Eu tenho usado o xsane esse tempo todo. Nunca me ocorreu que poderia haver uma ferramenta melhor.
Amanda
3

Eu estava usando xsaneaté que eu vi esta questão e considerou a sua idiossincrática interface para dizer o mínimo, mas eficaz.

Ao ver essa pergunta, procurei e encontrei o gscan2pdf vivendo nos repositórios Ubuntu Lucid / Maverick. Ele usa o mesmo mecanismo de verificação (libsane), mas a interface do usuário é muito mais semelhante ao Gnome. Por um bom tempo, tente:

sudo apt-get install gscan2pdf
msw
fonte
3

Altere o nome do arquivo de myfile.jpg para myfile.pdf na caixa de diálogo Salvar do Simple Scan.

Testado no Ubuntu 14.04, Simple Scan 3.12.1.

Isso funciona mesmo que o menu suspenso de tipo de arquivo não mostre "PDF", apenas "Imagens". Considero isso um bug da interface do usuário.

Este recurso está documentado em Help > Contents:

Na caixa de diálogo "Salvar como", escolha um dos tipos de arquivo suportados ou simplesmente altere a extensão no campo "Nome".

Ele diz que os seguintes formatos são suportados:

  • PDF
  • JPEG
  • PNG
  • TIFF

Fato interessante: se você alterar o tipo de digitalização (suspenso ao lado de "Digitalizar") para "Texto", o tipo de arquivo padrão será PDF.

Ciro Santilli adicionou uma nova foto
fonte
1

Digitalize páginas do scanner USB. Use o tesseract para OCR em um PDF. Mesclar várias páginas em um PDF. Uso: scan2PDF outputfilename number_of_pages

#!/bin/bash
#scan2PDF
#Requires:      tesseract 3.03 for OCR to PDF
#               scanimage for scanning, I use  1.0.24
#               pdfunite to merge multiple PDF into one, I use 0.26.5
#
#       Use scanimage -L to get a list of devices.
#       e.g. device `genesys:libusb:006:003' is a Canon LiDE 210 flatbed scanner
#       then copy/paste genesys:libusb:006:003 into SCANNER below.
#       play with CONTRAST to get good images
DPI=300
TESS_LANG=nor  #Language that Tesseract uses for OCR
SCANNER=genesys:libusb:006:003  #My USB scanner
CONTRAST=35   #Contrast to remove paper look

FILENAME=$1 #Agrument 1,filename
PAGES=$2    #Argument 2, number of pages

re='^[0-9]+$'  #Check if second argument is a number
if ! [[ ${PAGES} =~ $re ]] ; then
   echo "error: Usage: $0 filename number_of_pages" >&2; exit 1
fi

SCRIPT_NAME=`basename "$0" .sh` #Directory to store temporary files
TMP_DIR=${SCRIPT_NAME}-tmp

if [ -d ${TMP_DIR} ]  #Check if it exists a directory already
then
        echo Error: The directory ${TMP_DIR} exists.
        exit 2
fi
mkdir ${TMP_DIR}  #Make and go to temp dir
cd ${TMP_DIR}

echo Starts Scanimage...
scanimage -d ${SCANNER} --format=tiff --mode Color --resolution ${DPI} -p --contrast ${CONTRAST} --batch-start=1 --batch-count=${PAGES}  --batch-prompt


echo Starts Tesseract OCR

for file in  *.tif  #Goes through every tif file in temp dir
do
        tesseract $file  ${file%.tif} -l ${TESS_LANG} pdf

done

if [ "$PAGES" = "1" ] #How many pages
then
    cp out1.pdf ../${FILENAME}.pdf  #Only one page, just copy the PDF back
else
        for file in *.pdf  #More pages, merge the pages into one PDF and copy back
    do
            pdfuniteargs+=${file} 
            pdfuniteargs+=" "
    done
    pdfunite $pdfuniteargs ../${FILENAME}.pdf
fi
    echo ${FILENAME}.pdf done

rm *                    #Done, clean up
cd ..
rmdir ${TMP_DIR}
morten
fonte
é um método muito Linuxoidal
rth
1

Para aqueles que desejam usar o XSANE. É muito poderoso e intuitivo depois de ler o guia de configuração vinculado em Ajuda> XSane Doc no programa - para saber quanto você pode fazer com ele. Também vale a pena verificar se o back-end do SANE está funcionando corretamente (não muito específico do Arch): https://wiki.archlinux.org/index.php/SANE

Se você deseja digitalizar documentos automaticamente a partir de um alimentador e se perguntar se o XSane saberá quando parar (e não para muito cedo), basta inserir um número no canto superior esquerdo (ícone do número de digitalizações) maior que o número de páginas que cabem no seu alimentador. Ou seja, se o alimentador pode levar 10 páginas, digite 15 (para considerar a variação de espessura). Se você possui um scanner duplex, duplique esse número.

Quando o alimentador acabar, você receberá uma caixa de diálogo com um triângulo de aviso verde dizendo "" Páginas digitalizadas: 0 ". Isso significa que o alimentador está vazio e você pode fechar a caixa de diálogo. Se você selecionou" visualizador "ou" salvar " "no canto superior direito do XSane, todos os arquivos estarão lá - lembre-se de salvá-los do visualizador. Agora você pode pressionar scan novamente para continuar de onde parou, com os números aumentando a partir do mesmo ponto ou você pode começar um novo projeto.Não haverá páginas em branco adicionadas.Se você selecionou "Multipáginas", a caixa de diálogo do projeto deve mostrar todas as digitalizações concluídas e você pode clicar para salvar como PDF de várias páginas, TIFF ou PostScript.

HTH,

DC

user901387
fonte