Como posso extrair texto (somente texto) de um PDF de partituras?

0

Eu tenho um livro de partituras em PDF do qual preciso extrair o texto. Eu não preciso extrair as notas musicais ou qualquer coisa, apenas os versos do texto.

Não consigo selecionar uma linha de texto sozinha - ela sempre seleciona outras partes da página. Copiar toda a página em conjunto coloca tudo fora de ordem. Há também hifens entre sílabas que eu gostaria de remover.

Esta é a primeira música no PDF: link

    
por Samuel Bradshaw 22.01.2013 / 07:20

1 resposta

1
  1. Meu primeiro pensamento foi copiar e colar o texto inteiro no notepad ++ e fazer algumas ações de regex para filtrar apenas os caracteres válidos. Isso falhou porque as linhas ficaram confusas depois de colá-las.

  2. Segundo pensamento: Use um OCR on-line como onlineocr.net ou ocrconvert.com Isso não foi tão ruim quanto eu esperava. Ainda assim, você precisa excluir algumas interpretações erradas


    Clique para o exemplo completo

por 22.01.2013 / 07:47

Tags