Formato das linhas ao copiar do PDF

1

Estou tentando copiar texto de um arquivo PDF para uma palavra, no entanto, quando colo o texto no arquivo de palavras, as linhas no arquivo PDF são "mais curtas", por isso não ocupa toda a linha da palavra e tem que juntar manualmente as frases para que pareça normal (usando backspace).

Eu tentei copiar o paster em PDF, embora funcione, ele removeu todas as quebras de linha, portanto, não há parágrafos retidos, mas o arquivo que estou tentando copiar é muito grande e preciso que parágrafos reais sejam mantidos. Existe uma maneira de fazer com que as palavras se encaixem tanto quanto possível e respeitar os parágrafos atuais também?

    
por Mxrcovani 21.06.2017 / 14:22

1 resposta

0

O texto no PDF consiste em fragmentos de texto posicionados de forma absoluta e, na linha de caso geral, as quebras de parágrafo não são especificamente indicadas. Portanto, a tarefa de determiná-los corretamente se torna mais um OCR, que é uma tarefa complexa, e você provavelmente precisará de um software complexo para obter resultados satisfatórios.

O próprio MS Word, por exemplo, tem o recurso de importar documentos PDF, mas também nem sempre reconhece os intervalos perfeitamente (por exemplo, quando os fragmentos de texto são um pouco 'inclinados', como é o caso dos arquivos digitalizados e Documentos OCR-ed).

    
por 24.06.2017 / 21:07