Se você chamar cat
em um arquivo que contenha um texto em chinês¹, não será impressa uma tradução em inglês. Com os formatos de computador, é a mesma coisa: se você chamar cat
em um arquivo que contém dados em um determinado formato, ele não será traduzido para outro formato, como texto simples. Esse não é seu trabalho: seu trabalho é copiar sua entrada para sua saída sem modificá-la.
Um arquivo PDF não é um arquivo de texto. Um arquivo PDF pode conter texto, juntamente com instruções de formatação, imagens, hiperlinks, etc. Se você quiser ler o texto em um arquivo PDF, é necessário usar uma ferramenta que entenda o formato de arquivo PDF.
Existem alguns bits reconhecíveis no arquivo PDF: NimbusRomNo9L
sugere que o texto está escrito em uma fonte Nimbus Roman. Essa não é uma das poucas fontes que todos os visualizadores e impressoras de PDF devem ter, portanto, ela deve estar incorporada no arquivo PDF. O texto em si ( abc
) não está enterrado na saída porque está comprimido.
Uma ferramenta comum para visualizar arquivos, independentemente do formato em que estão, é xdg-open
. No Debian e derivados, see
é uma alternativa. Ambos funcionam adivinhando o formato de arquivo da extensão do nome do arquivo e chamando um aplicativo apropriado. Se você quiser extrair explicitamente as partes do texto (e esquecer outras informações, como imagens, fontes, a localização do texto na página, etc.), poderá chamar um programa para converter o arquivo PDF em texto, como < href="http://linux.die.net/man/1/pdftotext"> pdftotext
.
¹ Se você entende chinês, substitua Georgian, ou Kanada, ou Cree, ou qualquer outra língua que você não fala.