textutil converte PDF para txt produzindo saída distorcida

1

Estou tentando converter arquivos PDF em arquivos de texto usando textutil . Não sei se existem tipos especiais de PDFs que podem e não podem ser convertidos. Os arquivos que estou tentando converter estão em um formato pesquisável, que eu suponho que seja um requisito mínimo. Quando eu converter o arquivo, o documento de texto é concluído a saída ilegível. Aqui está o meu código:

textutil -convert txt example.pdf

Aqui estão algumas das primeiras linhas, caso isso ajude a identificar onde estou indo errado:

%PDF-1.3
%ƒÂÚÂÎßÛ†–ƒ∆
4 0 obj
<< /Length 5 0 R /Filter /FlateDecode >>
stream
xÌõYè‹∏«flı)8>2”„å,R%Ÿªõ¯fixs9ôM‚<YÅ'„Ô‰W,J¢‘íF3”@^2Z›<ädˇ:(ˇl>òüçuπ´Í¶ñ¶nõº.⁄⁄         
4>~˘œ?Ã_ÕøÕ”W_≠˘Ù’·fl◊OL.ò´øÂKI5ÖÀª∫*≥O_ÃÀk”‘aH|OØØù
±Ê˙'sqv0◊ˇ2oÆ√Vñ©˘÷Êmy2jæ»;P+Ú¢(*s˝ikó3>z¸ãõæ8;èè˙΄·ê—z~=|  
¯D˝rËî)WÈå<˝¡ÒˇnÆfl/3¿’UnõÆ4~∫Á;Ú”µ≠J˙4‰JWùîgz8€]êªA@g¸≠kRŸ¯‹÷ùàëeÁÔπUŸÓ÷Ü´≤Œ

Suponho que tenha a ver com alguma funcionalidade de codificação - não a minha área de especialização, por isso qualquer ajuda seria muito apreciada!

    
por Brian P 31.03.2015 / 16:23

1 resposta

0

Com referência à página de manual TEXTUTIL (1) pdf não está entre os formatos gerenciados por este utilitário: fmt is one of: txt, html, rtf, rtfd, doc, docx, wordml, odt, or webarchive

No Linux / Unix, instalar um produto com script, como o XPDF / pdftotext , pode ser uma solução válida, como alguns comentários já sugeridos.

Para aqueles que estão no OS X, é possível extrair texto do PDF por uma ação nativa de um autômato OS X (..ver esta resposta ou últimos 4 'deste tutorial ) então considere que o fluxo de trabalho do automador pode ser" roteirizado "via Comando do automator CLI

    
por 31.07.2015 / 11:04