Remove todos os arquivos que começam com um determinado cabeçalho

0

Então eu tenho um conjunto de dados que eu quero usar para minha rede neural.

O problema é que dentro do conjunto de dados existem arquivos que eram originalmente .BMP mas graças a um script que eu usei, eles foram convertidos em .JPG

Estou tentando descobrir como me livrar desses arquivos automaticamente, pois estou lidando com uma grande quantidade de dados e fazê-lo manualmente não é possível.

É super fácil identificá-los no explorador de arquivos (a miniatura não é carregada e simplesmente diz JPG), mas não consigo descobrir uma maneira automatizada de fazer isso.

Por favor ajude.

    
por Macko 18.02.2018 / 23:16

1 resposta

1

Você pode usar o comando "identify" do ImageMagick para diferenciar os arquivos de bitmap. O restante deve ser um exercício de script mais ou menos direto, passar por seus arquivos e excluir os corretos - ou talvez movê-los para um diretório separado, onde você possa inspecioná-los antes de apagá-los, para ter certeza de que .

link

O ImageMagick é bastante compatível com várias plataformas e está bem documentado on-line. Aqui está um exemplo de saída (do Ubuntu):

anlag@jansson:~/Downloads/img$ identify lena_gray.bmp 
lena_gray.bmp BMP3 512x512 512x512+0+0 8-bit sRGB 256c 263KB 0.000u 0:00.000
anlag@jansson:~/Downloads/img$ identify photo.jpg 
photo.jpg JPEG 127x127 127x127+0+0 8-bit sRGB 7.51KB 0.000u 0:00.000

Você analisaria a saída da string "BMP3" e processaria de acordo. O script em si pode ser feito em qualquer ferramenta que você se sinta confortável: script cmd.exe do Windows, Python, bash etc. Se você precisar de uma mão com essa parte também, é melhor especificar com mais informações sobre qual SO e software você usa (linguagem de script / ferramenta em particular).

PS. Eu fiz referência ao ImageMagick já que ele é compatível com várias plataformas, mas se você estiver usando o Linux, o comando "file" fornecerá informações equivalentes para esse caso de uso.

anlag@jansson:~/Downloads/img$ file lena_gray.bmp 
lena_gray.bmp: PC bitmap, Windows 3.x format, 512 x 512 x 8
anlag@jansson:~/Downloads/img$ file photo.jpg 
photo.jpg: JPEG image data, JFIF standard 1.01, resolution ...
    
por 19.02.2018 / 02:27

Tags