A impressão de um PDF para PDF prejudica sua qualidade?

6

Digamos que eu tenha um PDF de um site que é muito longo. Depois de ler algumas coisas, decido que existem páginas estranhas; mas, em vez de encontrar o website toda vez que eu decido eliminar uma página, quero imprimi-lo em PDF e simplesmente não selecionar essa página para impressão (usando o CUPS-PDF). Isso degradará a qualidade do PDF, especialmente se eu fizer isso várias vezes? Existe uma maneira melhor de alcançar o que estou procurando? Eu tentei PDFEdit, com resultados mistos, e gostaria de algo mais confiável. Claro, posso sempre voltar ao site e salvar uma nova versão, usando a mesma técnica de negligenciar aquelas páginas que não quero.

    
por Kazark 16.09.2011 / 22:05

3 respostas

10

Em princípio, é possível imprimir um PDF por meio de uma cadeia de programas que termina em uma geração de PDF sem perda de qualidade.

Duas coisas importantes precisam acontecer para garantir uma conversão perceptivamente sem perdas:

  1. Cada elo da cadeia tem que entender todos os elementos do documento e ser capaz de passá-los para a próxima parte da cadeia sem perdas:

    • Se o documento contiver fontes incorporadas, a fonte também deverá estar instalada em algum lugar em que o PDF writer possa encontrá-la, para que possa incorporá-la novamente ou a fonte incorporada tenha de passar pela cadeia.

    • Se o documento contiver miniaplicativos incorporados - JavaScript, Flash, Postscript ... - eles devem ser transmitidos intocados.

    • Se o documento contiver hiperlinks, formulários ativos, camadas de texto OCR, numeração de página personalizada, marcação não impressa, comentários, metadados etc., todas as partes da cadeia precisarão saber como passar esses dados por meio de para o escritor.

    • Se o documento contiver tamanhos de página mistos, os programas na cadeia também devem ter capacidade para esse truque.

  2. Nenhum link na cadeia pode reinterpretar quaisquer dados que passem por ele. É comum em cadeias de PDF que as imagens sejam reamostradas e convertidas em formatos com perdas mais eficientes, por exemplo. Mesmo que as imagens em seu PDF original já sejam JPEGs de DPI baixa, as peças na cadeia podem escolher um DPI diferente ou ter uma configuração de nível de compactação diferente.

    (A propósito, o simples fato de haver um JPEG em uma ou ambas as extremidades da cadeia de PDF para PDF tecnicamente significa que a cadeia não é sem perdas, a menos que os dados brutos do JPEG estejam sendo transmitidos como estão de alguma forma No entanto, é possível que uma etapa de recompressão seja perceptualmente sem perdas. Isso nem sempre acontece, no entanto, às vezes de propósito.

Até agora, considerei apenas a qualidade perceptual. É possível obter uma conversão perceptualmente sem perda, mas perder a capacidade de edição ou acabar com um arquivo substancialmente maior:

  • Um documento PDF contendo texto criado a partir de uma fonte primária (ou seja, não digitalizado ou convertido de outro formato de apresentação de documento) geralmente contém os dados reais e de fonte que permitem ao leitor de PDF desenhar o texto a tela da mesma forma que um processador de texto.

    É possível transformar esse texto em rasterização 2D ou arte vetorial de uma maneira perceptivelmente sem perdas. O PDF permite até mesmo preservar a capacidade de pesquisa e a acessibilidade do leitor de tela pelo uso de camadas de texto OCR não impressas. No entanto, essa conversão aumentaria o tamanho do arquivo e tornaria a edição muito mais difícil.

  • A arte vetorial pode ser rasterizada, usando DPI igual ou um múltiplo par do DPI de impressão / visualização.

  • A cadeia pode converter todos os JPEGs em TIFFs, de modo a não perder absolutamente nenhuma qualidade de imagem.

  • A cadeia pode envolver JPEG para JPEG, sem alteração de DPI, mas use uma configuração de alta qualidade fixa para evitar a criação de artefatos perceptíveis.

Para o seu caso simples, excluindo uma página, é bastante fácil obter uma garantia sem perdas, se você usar um programa que entenda o formato de arquivo PDF bem o suficiente para simplesmente eliminar os dados da página. Isso é completamente factível, já que as páginas em PDF são mais ou menos independentes. É apenas uma questão de encontrar uma ferramenta que saiba o suficiente sobre a variante PDF específica com a qual seus arquivos existentes estão codificados. O PDF é um formato de arquivo muito complexo, portanto, é comum que os programas que afirmam oferecer suporte ao PDF tenham suporte parcial apenas na realidade. Pode ser que haja apenas um programa que realmente compreenda 100% do PDF: Adobe Acrobat Pro. Não me surpreenderia saber que cada outro programa que lida com PDF está realmente falando um subconjunto.

Em resumo, eu não esperaria que uma cadeia PDF-via-imprimir-de-PDF desse tais garantias de qualidade. Há muita oportunidade para interpretação e intermediação.

    
por 16.09.2011 / 23:29
5

Se eu entendi o seu objetivo principal corretamente, você não precisa passar por qualquer aborrecimento com a impressão em PDF. Você pode usar uma ferramenta de linha de comando como pdftk para extrair qualquer conjunto de páginas diretamente de um arquivo PDF e salvá-los como um novo. (Ele também permite muitas outras operações, como otimizar, adicionar / remover senha, girar algumas páginas, etc.) A ferramenta está disponível em repositórios de pacotes (provavelmente) de todas as distribuições de desktop Linux.

A operação principal pdftk que você usaria é cat . Funciona de forma bastante intuitiva - por exemplo:

pdftk input_file.pdf cat 3-23 50-end output output_file.pdf

criará um arquivo output_file.pdf composto das páginas 3 a 23 e 50 até o final do arquivo input_file.pdf original. Olhe para man pdftk para mais exemplos (no final do manual).

    
por 17.09.2011 / 00:02
3

Em geral, não, a perda de qualidade não deve ocorrer. Se isso acontecer, o programa é o culpado, não o formato. Algumas coisas que podem ocorrer podem ser interpretadas como perda de qualidade:

  • As imagens podem ser recomprimidas (potencialmente causando perda de geração)
  • Texto (e outros vetores) podem ser transformados em splines, potencialmente causando problemas de usabilidade (incapacidade de copiar texto), etc.

Eu nunca usei CUPS-PDF ou PDFEdit , então essas são meras suposições sobre o que pode ocorrer, isto é, não sei se é provável que elas venham ou não.

    
por 16.09.2011 / 22:14

Tags