Como copiar texto de um PDF sem perder a formatação?

37

Quando copio um texto de um arquivo PDF e o coloco em um editor de texto, ele fica mutilado de várias formas. Formatação como negrito e itálico são perdidos; quebras de linha suaves dentro de um parágrafo do texto são convertidas em quebras de linha rígidas; traços para quebrar uma palavra sobre duas linhas são preservados mesmo quando não deveriam; e aspas simples e duplas são substituídas por? sinais.

Idealmente, gostaria de copiar texto de um PDF e ter a formatação convertida em códigos HTML, "aspas inteligentes" convertidas em "e" e quebras de linha feitas corretamente. Existe alguma maneira de fazer isso?

    
por Colen 11.10.2010 / 23:13

9 respostas

50

Primeiramente, você precisa entender o que é um PDF. PDFs são projetados para imitar uma página impressa e são projetados somente como um formato de saída, não um formato de entrada. um PDF é basicamente um mapa contendo a localização exata dos caracteres (letras individuais ou pontuação, etc.) ou imagens. Na maioria dos casos , um PDF nem armazena informações sobre onde uma palavra termina e outra começa, muito menos coisas como quebras suaves versus quebras duras para finais de parágrafos.

(Alguns PDFs recentes armazenam algumas informações sobre essas coisas, mas essa é uma nova tecnologia, e você teria sorte de encontrar PDFs como esse. Mesmo que você o fizesse, seu visualizador de PDF talvez não o conhecesse.)

De qualquer forma, cabe ao seu software implementar algum tipo de "inteligência artificial" para extrair apenas dos locais de caracteres individuais o que é uma palavra, o que é um parágrafo e assim por diante. Diferentes softwares farão isso melhor que outros, e também dependerá de como o PDF foi feito. Em qualquer caso, você nunca deve esperar resultados perfeitos. Ter o PDF de saída não é o mesmo que ter o documento de origem. É muito melhor tentar obter isso se puder.

A solução padrão para o seu tipo de problema é usar o Adobe Acrobat Professional (o mais caro, não o leitor gratuito) para converter o PDF em HTML. Mesmo isso não vai obter resultados perfeitos.

Existe software livre que pode ser usado para extrair texto de PDFs com alguma formatação intacta, mas, novamente, não espere resultados perfeitos. Veja, por exemplo, calibre (que pode converter em formato RTF), pdftohtml / pdfreflow ou o processador de texto AbiWord (com todos os plugins de importação / exportação habilitados). Há também um plugin de importação de PDF para o OpenOffice.

Mas, por favor, não espere perfeição com nenhum desses resultados. Você está indo contra a corrente aqui. O PDF não é apenas um formato de entrada editável.

    
por 11.10.2010 / 23:30
8

Outra opção é baixar e começar a usar o visualizador de PDF gratuito, o Foxit (é bom). Então você pode 'Salvar como' e escolher .txt para convertê-lo em um arquivo de texto. Isso preservará toda a formatação. Não sei se você pode fazer o mesmo no Adobe, porque parei de usá-lo há algum tempo, quando me converti para o Foxit.

    
por 24.01.2013 / 08:05
5

Existe uma ferramenta online muito boa chamada Sej-da . Ele lida com Manipulação Avançada de PDF. Não há software para download. Como é uma ferramenta on-line nova , ela ainda está em versão beta. Ele permite que você extraia texto de um PDF, além de fornecer uma infinidade de outras funcionalidades do PDF

link

Uma breve revisão em vídeo das funções da sejda foi realizada em 14 de novembro de 2012 pela Revisão 3, que pode ser encontrada aqui:

link

    
por 01.12.2012 / 15:29
4

Você pode usar o Adobe Acrobat Pro para isso.

Para tabelas: com o Acrobat 9/10, havia um recurso de seleção de tabelas. Com o Acrobat X, basta clicar em Salvar como > Planilha > Excel. Ele até concatena páginas em uma longa planilha. Característica impressionante.

Para texto: Existe um recurso semelhante para exportar para o MS Word. Salvar como > Palavra > Word Doc.

Fontes:

  • link
  • Eu fiz isso e funcionou como um encanto.
por 06.09.2012 / 21:00
4

Abra o seu arquivo PDF com um navegador (o Google Chrome e o Firefox são testados) e copie seu texto para lá.

    
por 01.12.2012 / 14:48
0

O Foxit alternará entre exibir o arquivo original como PDF normal ou como texto pressionando Ctrl + 6 (Com um pouco de mexer no nível de zoom do modo de texto, não há muito salto de posição entre leitura e cópia)

    
por 13.04.2015 / 13:19
0

Achei isso muito útil ( Remover quebras de linha ):

Aqui está um truque útil para resolver isso rapidamente sem precisar remover todas as quebras de linha manualmente. Basicamente, tudo o que ele faz é substituir automaticamente todas as quebras de linha indesejadas por um único espaço, fazendo todo o texto ser executado em um único parágrafo:

1- copie o texto que você quer do PDF.

2- cole em um novo documento do Word.

3- clique em "editar" e depois em "substituir"

4- Verifique se você está no campo "encontre o que"

5- Clique em "mais" e depois em "especial"

6- selecione "marca de parágrafo" (parte superior da lista)

7- clique no campo "substituir por"

8- pressione a barra de espaço uma vez

9- clique em "substituir tudo"

10- clique em "ok" e feche o "find & substituir "caixa.

    
por 26.02.2017 / 00:17
-1

Você pode copiar do leitor de adobe para o MS Excel e formatar (tabela) como quiser e depois copiar e colar do Excel. Esta solução funciona muito bem. Você não precisa comprar uma cópia profissional cara da Adobe.

    
por 11.12.2015 / 05:23
-1

Eu estava tentando salvar o texto e o formato de um pdf organizado em uma tabela. No Acrobat Professional, percebi que existe uma opção 'Salvar como' que permite salvar como um documento do Excel. Isso funcionou bem para as minhas necessidades. Eu também notei que há uma opção de documento Salvar como Word também. Eu não tentei embora.

    
por 22.01.2016 / 17:15

Tags