PDF possui texto ilegível ao copiar uma cópia

21

Estou tentando copiar e colar texto de um arquivo PDF.

No entanto, sempre que colo o texto original, é uma enorme confusão de caracteres ilegíveis. O texto parece com o seguinte (este é apenas um pequeno extrato):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14, 

Eu tentei isso nos leitores Adobe e Foxit PDF. Eu fiz um 'Salvar como texto' no Adobe Reader eo arquivo de texto resultante é o mesmo texto ilegível.

Alguma ideia de como posso eliminar este texto sem erros? (Além da digitação manual ... há muito texto para extrair).

    
por ngm 05.05.2010 / 15:53

11 respostas

10

A maneira mais simples de contornar isso é abrir o arquivo em uma versão recente do Google Chrome com o plug-in de leitura de PDF embutido . Em seguida, você pode usar o recurso de pesquisa do Google Chrome para encontrar texto e copiar e colar funciona corretamente.

Eu gostaria de votar no comentário de pipitas sobre a resposta de Shiki, mas eu não tenho os creds :( O problema pode ser codificação de fonte personalizada, não criptografia . No Acrobat, clique em Arquivo - & gt ; Propriedades, clique na guia Fontes para ver a codificação e na guia Segurança para ver se ela está criptografada.

    
por 08.04.2011 / 16:40
4

Eu descobri esse problema com os PDFs que criei e acredito que localizei a origem do problema: usando a Visualização do Mac OS X para reduzir o tamanho do arquivo PDF.

Eu criei alguns filtros Quartz usando o utilitário Colorsync para compactar imagens em PDFs para reduzir o tamanho geral do arquivo de PDFs com imagens. Tal como descrito aqui: link

Descobri que posso copiar e colar facilmente o texto do arquivo PDF original (descompactado), mas depois de executar esse PDF por meio de um filtro Reduzir tamanho de arquivo criado, o PDF compactado resultante não copia o colar claramente parecendo como as cordas que você postou).

No entanto, executar o mesmo PDF original por meio do documento > do Adobe Acrobat Pro Reduzir a função Tamanho do arquivo, o PDF compactado resultante pode copiar e colar o texto com êxito.

Portanto, isso não é totalmente útil no seu caso, presumindo que o seu arquivo PDF foi recebido de outro lugar e que você não pode acessar a versão original, se ela foi realmente compactada de alguma forma. Mas essa pode ser a explicação - que o arquivo foi destroçado de alguma forma em um esforço para reduzir o tamanho do arquivo.

Isso pode ser útil para criadores de conteúdo com problemas semelhantes copiando e colando texto de PDFs - seja cuidadoso ao usar os filtros do OS X Quartz para reduzir seus PDFs!

- edit-- Também notei esse problema ao combinar PDFs com Preview. Os dois PDFs de origem podem ser copiados e colados corretamente, mas ao arrastar uma página de um arquivo para outro arquivo, salvando o PDF combinado, o texto no documento combinado não pode ser copiado / colado. Estes são dois documentos, ambos gerados ao mesmo tempo com o Filemaker Pro 11 no Mac - não posso imaginar que eles teriam codificações diferentes ou algo assim.

    
por 26.07.2010 / 21:54
3

Existe outra maneira muito fácil de fazer uma solução alternativa:)

Basta imprimir o documento usando o CutePdf, a impressora do Adobe 2Pdf ou qualquer outro material semelhante. A linha inferior é, que você precisa imprimir no formato pdf.

Em muitos casos, removerá facilmente o problema.

    
por 18.03.2012 / 15:36
2

RESOLVIDO: (funcionou para mim no Windows 8, Acrobat XI, Office 2010)

Opção 1:

  1. Imprimir a partir do Acrobat usando "Microsoft XPS Document Writer" A saída é: "seu nome do arquivo.oxps"
  2. Abra "... oxps" com o XPS Viewer. * (veja o link para download nos comentários abaixo)
  3. Imprimir em PDF (Acrobat PDF ou CutePDF) usando a resolução mais alta (600 DPI).
  4. Abra com o Acrobat e use a opção OCR (Imagem pesquisável (exata)).

BINGO!

Comentários:

  • Usar a resolução mais alta e a Imagem pesquisável (exata) salvará seu texto sem perder sua aparência limpa. A baixa resolução deixará seu texto legível, mas com uma aparência ruim.
  • Download do Microsoft XPS (arquivos): link
  • Se você não souber o que é o OCR ou onde encontrar a Imagem pesquisável (exata) ou Como imprimir usando o "Microsoft XPS Document Writer", POR FAVOR, faça o Google sozinho, para obter as melhores experiências.

* Faça o download somente se você não tiver o XPS instalado.

Opção 2:

Faça o mesmo, mas salve como imagem (png, tiff, ...), então você terá que combinar todas as páginas em um arquivo "PDF".

    
por 25.03.2013 / 00:59
1

Existe o risco de as informações não serem recuperáveis. Documentos PDF são essencialmente um documento sobreposto a outro, um texto simples, o outro uma imagem. Quando você copia e cola do documento, marca o texto enquanto observa a figura, mas o que é copiado para a área de transferência é a parte correspondente da parte do texto.

Dependendo da maneira como o documento é criado, a qualidade e a disponibilidade da parte do texto podem ser muito diferentes. Se você salvar um documento de processador de texto no formato PDF, usando o Acrobat, Word, um driver de impressora PDF ou qualquer outro método, a qualidade normalmente será excelente, já que o arquivo de texto pode ser criado a partir do texto original. Alguns caracteres especiais podem ficar distorcidos, mas o texto sem formatação geralmente é bom.

Se o documento for criado a partir de uma imagem digitalizada, no entanto, a parte de texto é normalmente criada pelo processamento de OCR da imagem, o que pode produzir resultados bastante lamentáveis, especialmente se o original for inferior ao ideal.

Um programa incorreto usado para criar o PDF, ou as configurações incorretas, também podem fazer com que a parte do texto fique completamente distorcida, assim como, possivelmente, alguns tipos de criptografia podem ser executados no arquivo depois de criado.

O resultado é que, se a parte do texto do documento é realmente ruim, não há como melhorá-lo. Sua melhor aposta seria remover completamente a parte do texto e fazer com que o programa refaça o processo de OCR. Acho que isso pode ser feito a partir do Acrobat, mas não tenho certeza.

    
por 21.06.2010 / 22:51
1

Uma possível razão para isso pode ser que a incorporação de fontes no PDF estava usando uma codificação personalizada, que não é aplicada corretamente ao copiar texto do PDF.

Você pode aplicar métodos diferentes para evitar digitar manualmente todo o conteúdo.

  1. Você tentou extrair o texto com uma das ferramentas 'pdftotext.exe' para download em toda a 'net? (Eu recomendaria o incluído em ftp://ftp.foolabs.com/pub/ xpdf / xpdf-3.02pl4-win32.zip ).
  2. A versão mais recente do Acrobat Reader tem uma opção "Salvar como texto ..." . Isto não usa "copy'n'paste" (que lhe deu o texto truncado), mas provavelmente usa as mesmas rotinas de software usadas para renderizar o texto na tela, e pode, portanto, produzir mais resultados utilizáveis.
  3. Se '2.' não funciona, e se você tiver acesso ao Acrobat Professional: tente destilar novamente o PDF usando um dos perfis do Distiller incorporados por fontes.
  4. se '3.' não funciona, apesar de você ter acesso ao Acrobat Professional: tente re-destilar o PDF, mas desta vez você deve usar a opção 'imprimir como imagem' (disponível através do botão 'Avançado' no canto inferior esquerdo da impressão principal). diálogo). Certifique-se de usar 600dpi (embora isso possa produzir um arquivo enorme). O PDF resultante é aberto novamente no Acrobat Pro. Agora aplique o algoritmo 'OCR' do Acrobat ao arquivo, o que resultará em texto incorporado (não usado para renderização na tela no Reader, mas usado para pesquisar e realçar strings). Agora você pode tentar novamente extrair o texto deste PDF, usando um dos métodos discutidos acima.
por 24.06.2010 / 16:23
1

Um dos meus usuários acabou de relatar o mesmo problema (o PDF foi criado com o Distiller para Windows), o texto copiado é apenas texto distorcido e ele não pode pesquisar em um documento. Eu tentei no meu Mac e não encontrei nenhum problema. Descobri que usei o aplicativo Preview da Apple, enquanto ele usava o Adobe Reader em sua máquina Windows. Então eu tentei o Adobe Reader no meu Mac e tive o mesmo efeito. Para mim, parece:

  • O Adobe Reader está se movimentando e pesquisando no texto salvo.

  • A pré-visualização da Apple irá copiar e pesquisar após aplicar o vetor de codificação.

Eu não posso dizer isso com certeza, mas isso explicaria minha observação. E, de fato, permitiria fazer todos os tipos de codificação ao salvar arquivos combinados / reduzidos, conforme descrito em outro post aqui: com o Preview, você ainda pode obter o texto novamente.

Primeiro, achei que seria mais lógico codificar o subconjunto de fontes incorporadas como entradas contíguas, em vez de deixar os buracos dentro e usar o local do caractere original. Mas então percebi que, usando um vetor de codificação para o subconjunto de fontes com entradas originais, os caracteres que são frequentemente usados podem ter menos bits definidos como 1 em seu byte e podem ser compactados de uma maneira melhor (pode diminuir a entropia do texto geral desta forma).

    
por 26.10.2011 / 20:58
1

Fazendo o upload para Google docs e usando a opção Visualizar > HTML simples , dá texto texto copiável para cerca de 80% com alguns espaços faltando.

Este tópico com resposta aceita para o mesmo problema explica isso com um exemplo de trabalho.

    
por 20.03.2017 / 11:04
1

Solução que funcionou para mim:

  • Envie o documento para o Google Drive / Documentos
  • o Google importará (a partir de 2013) como PDF
  • Abra a visualização de PDF e escolha Arquivo > Abrir com > Google Docs
  • Demora cerca de um minuto para exportar o documento

Os resultados não foram perfeitos, mas me deram 80% do caminho e me forneceram texto suficiente para que eu não precisasse reescrever tudo!

    
por 03.01.2013 / 21:36
1

Eu não tentei a opção Google Docs, pois ainda não é suportada no meu escritório. No entanto, imprimindo o arquivo para "ScanSoft PDF Create!" do "Acrobat 9" (imprime o arquivo inteiro para a imagem) e abrindo o arquivo impresso no "Nuance PDF Converter" (ele me incentivou se eu quiser tornar o arquivo de imagem pesquisável e editável, o que eu optei), eu consegui Tenho um documento do Word que posso copiar e colar facilmente. Não é perfeito com apenas cerca de 80-90% de precisão. Mas, ei, você ainda tem o arquivo PDF original para comparar e compensar as partes que não podem ser consertadas. Economiza tempo de digitar a coisa toda. Meu 2c.

    
por 15.03.2013 / 22:19
0

Fiz alguns PDFs de texto editável com uma versão antiga do Scansoft PDF Converter para Windows XP e combinei as páginas no programa de visualização do Mac. Para cada uma das páginas separadas, eu poderia pesquisar, copiar e exportar o texto corretamente do Adobe Reader no Mac. Quando combinados por Visualizar e salvos como um arquivo, todos pareciam bem na tela, mas apenas algumas passagens eram pesquisáveis / exportáveis corretamente. Esse problema me trouxe aqui.

Os posts aqui me deram algumas boas dicas (obrigado!). Eu olhei para as propriedades do arquivo para fontes. Os arquivos de página única do Win XP (onde está tudo bem) disseram que a codificação era ANSI. O arquivo combinado em Preview (onde o texto copiado é ilegível) mostrou a codificação para a maioria das fontes como "Built-in", com alguns como "Roman".

A solução para o meu problema ficou sob meu nariz o tempo todo - o próprio programa Scansoft pode combinar arquivos. Quando usei o combinador da Scansoft e abri o arquivo no Mac, todas as fontes foram mostradas como codificadas em ANSI e todo o texto foi exportado / copiado perfeitamente. Por que diabos eu não os combinei no PDF Converter em primeiro lugar, não sei. Obrigado, posters!

O mesmo é verdadeiro ao abrir os arquivos em um sistema Linux.

Eu sei que isso não explica os problemas apenas do Windows - a menos que o PDF tenha origens mistas semelhantes?

    
por 09.11.2012 / 17:31