Este é um cabeçalho de arquivo / número mágico?

4

Eu tenho 120.000 arquivos (muito mais, na verdade, isso é apenas um subconjunto arbitrário) de um tipo desconhecido. O Linux file não os identifica (não que sejam necessariamente arquivos Linux), nem qualquer outro método que eu tentei. Há apenas duas dicas sobre eles que eu tenho atualmente. Uma é que eu suspeito que alguma compressão é empregada - eu tenho metadados que afirmam que os tamanhos dos arquivos são sempre maiores do que o que eu observo.

O outro é que em 100.000 desses arquivos, os primeiros 16 bytes são sempre:

ff ee ee dd 00 00 00 00  01 00 00 00 00 00 00 00

Isso realmente parece um cabeçalho de arquivo / número mágico para mim, mas eu simplesmente não consigo colocá-lo. Alguém sabe que tipo de arquivos isso indicaria? Alternativamente, alguém pode me convencer de que esses bytes suspeitosamente comuns certamente não indicam um tipo de arquivo específico?

UPDATE

Eu não sei os detalhes exatos da engenharia reversa, mas a maioria dos arquivos em nosso caso são zipados depois que os primeiros 29 (ou mais) bytes são ignorados. Então, na prática, o problema está resolvido (sabemos como processar os arquivos), mas, em teoria, a questão ainda não foi respondida - não sei qual aplicativo rotineiramente preenche cerca de 29 bytes em seus zips. [Não tenho certeza se devo deixar a questão em aberto ou não neste momento.]

    
por Hammer Bro. 27.07.2012 / 02:11

1 resposta

3

Talvez você possa tentar usar o TrID em alguns desses arquivos link
Do site TrID:

TrID is an utility designed to identify file types from their binary signatures. While there are similar utilities with hard coded logic, TrID has no fixed rules. Instead, it's extensible and can be trained to recognize new formats in a fast and automatic way.

TrID has many uses: identify what kind of file was sent to you via e-mail, aid in forensic analysis, support in file recovery, etc.

TrID uses a database of definitions which describe recurring patterns for supported file types. As this is subject to very frequent update, it's made available as a separate package. Just download both TrID and this archive and unpack in the same folder...
...
...

Atualizar
Depois de ler sua atualização, sobre o fato de que eles são arquivos Zip com 29 bytes adicionados na frente deles, talvez esses bytes prefixados são de algum tipo de "falha" devido à maneira como esses arquivos foram obtidos.

Exemplo 1:
Talvez esses arquivos tenham sido extraídos de um backup de arquivo único de um servidor de arquivos (por exemplo, se você fizer um backup de servidor usando o NTBackup em um único arquivo, o NTBackup pode acrescentar alguns dados de atributo aos dados contidos no arquivo). arquivos)

Exemplo 2:
talvez esse arquivo seja extraído de um banco de dados, onde eles foram armazenados como objeto BLOB

Exemplo 3:
talvez esses arquivos tenham sido extraídos de uma imagem de CD / DVD RAW (os bytes anteriores podem vir de uma interpretação incorreta do sistema de arquivo / deslocamento de arquivo)

Há um número infinito de hipóteses ... talvez se você souber de onde esses arquivos vêm, você pode fazer um teste / verificação para ver se há um utilitário / software / ferramenta / banco de dados / servidor que armazena o arquivo zip arquivos em alguma outra estrutura de arquivo / dados, prefixando esses 29 bytes.

    
por 02.08.2012 / 20:49