Extrai todo o texto destacado de um PDF para separar as células do Excel

1

Eu crio muitas planilhas no Excel. Basicamente consistindo de várias colunas. O problema é que uma dessas colunas contém muito texto (valor total de parágrafos). O texto inserido nesta coluna é de um gigantesco arquivo PDF (este arquivo PDF contém muitas outras coisas que eu não preciso).

Até agora, o que fiz foi manualmente copiar e colar as coisas que eu preciso do PDF para o excel

Copy » Double click on cell » paste

Isso faz com que o texto perca a formatação e, quando colo o parágrafo em uma célula específica, recebo muitos espaços em branco que preciso remover manualmente.

Click on cell » Backspace the empty blanks till the paragraph falls into a singular line at the formula bar » Wrap text for neatness

Minha solução para isso é

  1. Copie vários parágrafos em uma tabela do MS Word
  2. Mesclar linhas até que cada parágrafo caia em uma linha singular
  3. Corrija a formatação removendo as quebras de parágrafo e substitua-as por espaços pelo método localizar / substituir seguido por
  4. Cole isso no excel

Agora, essas planilhas minhas podem ficar bastante grandes e essa cópia constante de cópias está se transformando em uma enorme dor. Existe uma maneira mais fácil de fazer isso?

O ideal seria que cada parágrafo do PDF fosse incluído em uma única célula do Excel, sem o irritante espaço em branco.

Eu estava pensando em apenas destacar as seções que eu preciso do PDF e, de alguma forma, extrair isso do PDF em uma coluna do Excel. De alguma forma magicamente inserir cada parágrafo em uma célula diferente em uma coluna singular sem uma tonelada de espaços em branco.

(ou)

Inserindo o PDF inteiro no Excel (novamente, de alguma maneira, magicamente inserindo cada parágrafo em uma célula diferente em uma coluna singular sem uma tonelada de espaços em branco) e eu posso simplesmente apagar o parágrafo / coisas que eu não preciso.

Eu sei que não vou conseguir a solução perfeita, mas qualquer método que me poupar tempo seria ótimo!

Este trabalho que faço é para a escola e não há como evitar isso.

    
por Shehryar Khan 22.01.2016 / 23:22

1 resposta

0

Resposta curta: não.

Resposta longa: Depende muito da natureza do PDF. Ao contrário do que a Adobe gostaria que você acreditasse, a especificação do PDF é uma confusão de espaguete de 900 páginas com muitas coisas que dependem de como o PDF foi criado e como é lido.

Se o PDF em questão tiver uma camada de texto incorporada em algum formato útil, como XML , você poderia extrair apenas essa camada e usar o XML para mapear os "parágrafos" para diferentes células do Excel. Os detalhes dependem inteiramente de como o arquivo PDF foi criado, de como essa camada potencial se parece e de suas habilidades de codificação.

Se você decidir tentar extrair as camadas do PDF, consulte este tópico para ter uma ideia do que está envolvido.

    
por 22.01.2016 / 23:29