Obtendo o timestamp “Criado” de um arquivo PDF na CLI

2

Gostaria de saber se há um comando CLI para obter o registro de data e hora "Criado" da guia "Documento" (das propriedades de arquivo de um PDF) na CLI?

Eu sei que posso usar stat para obter informações do Access / Modified / Changed do sistema de arquivos, mas com os metadados na guia "Documento" sendo incorporados no próprio arquivo, não sei como vá extraí-lo via CLI.

O motivo pelo qual eu preciso fazer isso é criar uma lista de nomes de arquivos junto com registros de data e hora "Criados" para cerca de 22.000 arquivos PDF. Obviamente, isso é algo muito mais adequado para o CLI do que a GUI.

    
por Joseph 12.03.2012 / 03:29

1 resposta

2

Se você instalar o pacote poppler-utils , poderá fazer isso usando o comando pdfinfo . Por exemplo:

$ pdfinfo OBEX-1.3.pdf 
Title:          Microsoft Word - OBEX13.doc
Author:         Daphne
Creator:        PScript5.dll Version 5.2
Producer:       Acrobat Distiller 5.0.5 (Windows)
CreationDate:   Wed Feb  5 11:12:32 2003
ModDate:        Wed Feb  5 11:12:32 2003
Tagged:         no
Pages:          95
Encrypted:      no
Page size:      612 x 792 pts (letter)
File size:      545666 bytes
Optimized:      yes
PDF version:    1.3

Você deve conseguir extrair a data de criação desta saída usando ferramentas padrão como sed ou awk .

Se você quiser algo um pouco mais programático, você pode usar a biblioteca poppler diretamente. Existem ligações para muitos idiomas populares, incluindo o Python (através do pacote python-poppler ).

    
por James Henstridge 12.03.2012 / 04:15