Extrai palavras em vez de letras de arquivos pdf?

1

Eu uso less , que usa pdftotext para extrair texto de arquivos pdf, por less my.pdf . Desta forma, algumas letras de palavras são separadas por espaços de um arquivo pdf .

CH APTE R 2 5        T E ST IN G WE B A P P LIC AT IO N S      540

Alguns alegaram que o Adobe Reader não tem problemas com isso. Eu não tenho o programa para verificar isso. Mas estou interessado em saber quais programas de software no Linux podem extrair as palavras corretamente?

    
por Tim 16.02.2015 / 03:22

2 respostas

2

PDF e sua irmã mais velha PostScript são linguagens usadas para criar documentos que reproduzem a mesma saída toda vez em qualquer dispositivo: monitor, impressora, impressora, etc. Por isso, permite que o criador do documento especifique as propriedades de cada caractere. individualmente. Sem olhar para o seu documento, eu estaria apenas imaginando a razão pela qual o criador separou os caracteres. O motivo mais comum é o kerning. É onde o espaço entre os caracteres é ajustado.

Você tem sorte que os personagens estejam realmente em ordem. Não há razão para que o criador não possa reorganizar os caracteres para que fiquem completamente fora de ordem. Mesmo parecendo palavras na página, no seu caso elas não são palavras no código PDF.

    
por 16.02.2015 / 03:56
2

pdf é um conjunto de tipos para produzir uma saída visual, não é estritamente necessário conter informações de texto. Imagine isso como uma placa de impressora com letras de chumbo colocadas nela. Cada letra é uma caixa com posição, tamanho e estilo absolutos. Então são todas as imagens e assim por diante. Se você tem uma fórmula matemática, pode ver onde está o problema: quem disse que o texto é linear? Você tem uma mistura de glifos, cada um posicionado e dimensionado, no entanto, o criador original pretendia.

Você tem a possibilidade de obter alguma semelhança com o texto verdadeiro, porque pdf é uma versão simplificada (e atualizada / ajustada) do postscript e ainda possui comandos que "imprimem" seqüências mais longas de cada vez ( que são exibidos ao estilo especificado com fontes incorporadas). Isso é o que você obtém com pdftotext . Ainda assim, as novas linhas, espaços em branco e assim por diante, podem ser confusas se a saída do aplicativo original dividi-lo em palavras ou letras para obter a aparência visual desejada.

Você está sem sorte se o texto foi convertido em splines bezier ou se o documento foi digitalizado. Muitos espectadores modernos têm recursos de OCR, portanto, algumas formas rudimentares de pesquisa e seleção ainda funcionam nelas. Mas não espere obter uma saída bem formatada - a extração de texto é principalmente engenharia reversa.

Um documento mais estruturado seria necessário para lidar com isso adequadamente - algo que continha tanto o conteúdo semântico, quanto recursos de exibição independentes de dispositivo fixos. Nós não temos isso. html é inadequado para saída paginada e o oxps não é muito melhor do que pdf nesse assunto.

    
por 16.02.2015 / 08:08

Tags