.pdf tem comportamento de marcação estranho

2

Como você pode ver na figura abaixo, eu tenho um arquivo .pdf que se comporta de maneira estranha quando eu tente marcar e citar parte de seu texto. Eu importei no Citavi 5, tentei imprimir o arquivo com doPDF 8, Microsoft Print para PDF e OpenText PDF converter, o comportamento permaneceu o mesmo. Eu também tentei outras fontes, mas parece que elas são todas baseadas no mesmo arquivo.

Aocopiardiretamentedoarquivo.pdf,oresultadoéassim:

Overalthetap“hapticForoupercepspeaketonotimightthanthwereabWhileothersapproacasualMostiimplantasks.Tthewaratede

QuandousooMicrosoftXPSDocumentWriter,asaídaésemelhanteaabaixo,comalgumasletrasmarcadascomoduplas.Pareceomesmoquandoconvertidopara.txt.

Ao copiar do arquivo convertido para .txt ou .xps, é assim:

Resultts

Overalll, participants found the devvice easy to usee. All liked the tapp sensor (“easyy to use”) andd button (“easy to find”, “hapticc feedback”), but none enjooyed the pressuure sensor. For ouutput componeents, all rank ed the LED lowest for

Portanto, a conversão para .txt é a que funciona melhor, mas eu ainda teria que examinar toda a cotação para excluir caracteres duplos.

Alguém conhece esse tipo de comportamento e o que eu posso fazer para ter um arquivo que eu possa citar facilmente?

    
por Lehue 04.10.2017 / 16:47

1 resposta

1

Se você tiver acesso ao software da Adobe, isso poderá ser feito até certo ponto. Abri o seu PDF no Photoshop para imprimir como uma imagem apenas (digitalizar o documento fará a mesma coisa) e usei o OCR do Acrobat Pro (Ferramentas > Reconhecer texto) para localizar elementos em formato de texto no documento. Você pode destacar e copiar / colar normalmente.

saída, por exemplo. copiar / colar Os participantes preencheram um questionário após o estudo, compartilhando sua impressão ao usar o dispositivo em ambientes públicos e quaisquer reações que eles receberam.

Quanto ao motivo pelo qual isso está acontecendo, não posso ajudá-lo, inspecionar os elementos de texto em seu PDF original realmente mostra as páginas problemáticas como tendo campos de texto divididos em vez de um campo contínuo como esperado, as outras páginas que destaque normalmente não tem esse problema.

Eu não estou familiarizado com o software que você falou, mas no caso de eles terem uma função similar, como reconhecimento de texto, eu imagino que funcionará da mesma forma. Espero que isso ajude!

    
por 06.10.2017 / 03:56

Tags