Conteúdo em PDF - a maneira mais rápida de saber se é texto ou gráfico digitalizado?

1

Usando o Adobe Reader 9 , estou vendo um documento PDF com páginas e páginas de texto.

Acho que é um gráfico digitalizado em vez de um texto verdadeiro. Eu não estou particularmente familiarizado com o formato PDF, mas suponho que ele distingue entre conteúdo de texto verdadeiro e conteúdo gráfico (algo como HTML faz ou MSWord).

O Acrobat tem várias ferramentas / modos. Se eu selecionar a Select Tool e arrastar o mouse sobre o texto e ele apenas criar um retângulo, (ao invés de bloquear o destaque das palavras), então é um gráfico certo?

Como você deve ter adivinhado, estou esperando que esteja errado, mas só quero ter certeza.

    
por hawbsl 21.02.2011 / 12:36

4 respostas

1

O Acrobat Reader deve ter uma ferramenta selecionar texto , usar isso em vez da ferramenta de seleção normal. A ferramenta de seleção de texto tem um T maiúsculo ao lado de um cursor, como em estes dois páginas da web .

Eu não utilizei o Acrobat Reader há tempos, então não posso confirmar se selecionar texto ainda está disponível na versão 9. Se não estiver, tente usar a ferramenta de seleção regular e copie. Se você pode colá-lo no Bloco de Notas ou na caixa de diálogo Executar, então é texto, se você pode colá-lo no MSPaint, é um gráfico.

Como alternativa, você também pode usar outro programa para PDFs. Foxit é popular e tem um leitor gratuito como o Acrobat, mas eu pessoalmente uso o Google Chrome agora porque ele tem um plugin PDF que funciona muito bem para qualquer propósito geral de leitura de PDF, incluindo seleção e cópia de texto (o Chrome é ótimo como PDF leitor, mesmo que você não queira usá-lo como navegador!)

    
por 21.02.2011 / 14:51
0

Sim. Usar a ferramenta selecionada é a maneira mais fácil de determinar isso. No entanto, às vezes, o Adobe Reader usa o OCR para copiar texto de imagens como texto, não imagem.

    
por 21.02.2011 / 13:09
0

Não sei nada sobre o Adobe Reader, mas as ferramentas de PDF com as quais estou familiarizado (o Okular e o Evince) têm a opção de mostrar as fontes de um documento. Um documento que não mostre fontes provavelmente é digitalizado, enquanto um que se refere a pelo menos uma fonte pode ter texto real. Não é à prova de idiotas, mas talvez melhor que nada?

Se o Adobe Rearder não listar fontes, talvez os utilitários que vêm com o Poppler (a biblioteca por trás do Okular e do Evince) ajuda?

    
por 21.02.2011 / 14:12
0

Use Ctrl-F para encontrar texto (por exemplo, "a", "e" e "i"; se nenhum deles for encontrado, quase certamente o documento não conterá texto). Se funcionar, é texto ou OCR.

Com C-a C-c não recebi nada no Bloco de Notas (C-v). Essa é outra maneira de verificar se não tem texto, eu acho.

"Arquivo> Propriedades > Fontes" (ou clique com o botão direito em > Propriedades > Fontes) não está OK: testei um arquivo gráfico e ele tinha 3 fontes. Também não identifiquei nenhuma outra propriedade diferente de um pdf de texto.

    
por 17.10.2016 / 12:16

Tags