Além de strings
Eu nunca vi uma ferramenta de linha de comando Unix além de grep
, awk
e amigos que podem analisar dados de qualquer arquivo de texto. Todas essas ferramentas pressupõem que os dados estão em formato textual.
Arquivos como PDF ou documentos do Word codificam os dados textuais em um formato binário, tornando-os inacessíveis sem o auxílio de outras ferramentas para analisá-los. Essas ferramentas são tipicamente um truque de pôneis que muitas vezes só são capazes de lidar com um ou alguns desses formatos binários de arquivos.
Você pode usar o comando file
para identificar o tipo de arquivo.
Exemplo
$ file /usr/share/cups/data/default.pdf
/usr/share/cups/data/default.pdf: PDF document, version 1.5
Veja man file
para saber mais sobre seu uso.
Lucene, Solar e outras ferramentas de indexação
Você pode adaptar ou encontrar uma ferramenta incluída em uma ferramenta de indexação, como Lucene (como: PDF & Documentos do MSOffice ) que podem analisar esse texto com pelo menos um grande subconjunto dos arquivos normalmente lidam diariamente. Espero que seja capaz de lidar com os formatos de arquivo PDF, Word e Libre Office para iniciantes.
Outras ferramentas
Essas ferramentas podem pelo menos ler parcialmente certos arquivos binários, então estou adicionando-os aqui apenas para que você esteja ciente deles. Eles não são abrangentes, mas podem ser úteis para você, no entanto.