Como posso remover o plano de fundo da página em escala de cinza de uma verificação de documento PDF enquanto preservo o texto? (Binarização)

6

Meu PDF contém 600 páginas com imagens de texto. Tem 2 camadas .

  • Camada 1: imagem colorida em segundo plano

  • Camada 2: imagem de texto

Eu gostaria de remover todas as camadas da imagem de plano de fundo no arquivo PDF total, conforme mostrado na imagem.

Vocêpoderiamesugeriralgumsoftware/ferramenta?

    
por Raghu G 27.12.2013 / 18:11

3 respostas

8

Visão geral

O que você está procurando são ferramentas como Scan Tailor e sem papel que são capazes de Limiar , Despeckling, and Noise Removal . As duas ferramentas funcionam com imagens em vez de PDF, mas você pode converter facilmente entre os diferentes formatos que esses aplicativos usam e PDF usando as ferramentas descritas no final desta resposta.

ScanTailor

Você pode encontrar um tutorial em vídeo aqui . Uma documentação mais extensa está disponível no wiki oficial . Você provavelmente estará mais interessado na página em modo de saída preto-e-branco e configurações de filtro .

Cancelar publicação

Ainda não trabalhei com unpaper . Pelo que entendi, tem muito mais recursos do que o ScanTailor, mas também é muito mais difícil de dominar.

Não há interface gráfica e você terá que confiar em opções de linha de comando para realizar seu trabalho. Por outro lado, isso significa que as conversões com unpaper podem ser facilmente automatizadas usando scripts.

Você pode encontrar alguns exemplos de script relacionados à conversão de uma digitalização para preto-e-branco e remover o de plano de fundo .

Algumas ferramentas úteis ao trabalhar com unpaper e ScanTailer

Não tenho tempo suficiente para escrever um tutorial completo sobre o ScanTailor e o unpaper¹, mas aqui estão algumas dicas sobre a conversão entre .pdf e os formatos de imagem suportados por essas ferramentas:

  • você pode usar pdfimages para converter documentos PDF em uma única página .ppm de arquivos, que podem ser lidos por unpaper .

    Exemplo de uso:

    pdfimages *.pdf ./extracted-images

  • O ScanTailor não aceita arquivos .ppm como entrada. Você terá que convertê-los para outro formato como o .png sem perda primeiro. mogrify do conjunto de ferramentas imagemagick pode fazer isso para você.

    Exemplo de uso:

    mogrify -format png *.ppm

  • O formato de saída do ScanTailor e o unpaper são arquivos .tiff de página única. Para convertê-los de volta para .pdf , sugiro usar tiffcp e tiff2pdf .

    Exemplo de uso:

    tiffcp *.tiff all.tiff
    tiff2pdf -F -p A4 -z -o Document.pdf all.tiff
    

Instalação

Este comando irá instalar todas as ferramentas mencionadas acima:

sudo apt-get install scantailor unpaper poppler-utils libtiff-tools

¹: para qualquer pessoa que esteja lendo isso, sinta-se à vontade para compilar uma resposta mais abrangente com base no ScanTailor e / ou no papel.

    
por Glutanimate 02.01.2014 / 09:08
1

talvez O editor mestre de PDF pode ajudá-lo, embora eu não tenha encontrado nada para fazer isso automaticamente sobre as 600 páginas.

    
por Presbitero 01.01.2014 / 18:34
0

Acabei de encontrar uma solução muito simples:

  • instale gscan2pdf .

  • Abra gscan2pdf e importe o PDF.

  • limite de ferramentas e > O padrão de 80% funcionou bem para mim.

  • salve o PDF em outro local.

por Noam 27.05.2014 / 15:05