Recuperar apenas apagou o pdf digitalizado sem desmontar

3

Acabei de excluir um arquivo pdf digitalizado.

Estou tentando recuperá-lo com scalpel .

O problema é que o bisturi recuperará muitos arquivos excluídos e nomeia-os numericamente (por exemplo, 0001.pdf, 0002.pdf, ... 9999.pdf).

De acordo com este tutorial , eu poderia usar um grep comando e pesquisa algum texto no arquivo excluído.

O problema é que o arquivo é escaneado (eu sei o nome do arquivo original), então eu não sei o que procurar.

    
por xralf 07.04.2016 / 23:43

3 respostas

5

Se você puder digitalizar o documento novamente, poderá compará-lo automaticamente com os documentos recuperados. Mas se esse for o caso, você provavelmente não precisará se recuperar.

Isso deixa de encontrar o PDF correto, e como abri-los um por um em programas como evince é complicado, eu recomendo que você execute o seguinte no diretório onde os arquivos .pdf são recuperados:

for i in *.pdf ; do
  pdfimages -j -l 1 "$i" "${i%}"
done

Isso sairá com arquivos JPEG ( -j opção, a menos que o arquivo digitalizado não seja JPEG, o que é improvável) com a primeira página ( -l 1 ) com o mesmo nome de base dos seus PDFs.

Agora você pode usar eog para navegar rapidamente pelas imagens extraídas até reconhecer (visualmente) o documento que está procurando. Uma vez encontrado, o arquivo de imagem terá o mesmo nome de base que o arquivo PDF que você está procurando.

    
por 13.04.2016 / 17:31
4

Tente executar pdfinfo em seus arquivos.

A saída pode ter Creator: Simple Scan ou similar, então você pode procurar por isso.

Você também pode tentar usar o campo CreationDate se souber a data aproximada da criação.

É claro que pdfinfo retornará um erro se o arquivo não for PDF, então você precisará enviar erros para /dev/null .

Tente digitalizar um documento usando o Simple Scan e veja qual saída pdfinfo retorna para ele.

    
por 08.04.2016 / 01:43
1

Os dados da imagem digitalizada no arquivo PDF provavelmente serão precedidos por algo como

<</BitsPerComponent 1/ColorSpace/DeviceGray/DecodeParms<</Columns 2480/K -1>>/Filter/CCITTFaxDecode/Height 3507/Length 96349/Name/Im0/Subtype/Image/Type/XObject/Width 2480>>stream

Eu, portanto, começaria a restringir as coisas com grep -Fil 'subtype/image' filenames . Isso excluirá pelo menos os arquivos PDF que não contêm uma imagem.

    
por 08.04.2016 / 00:11