Como encontrar todas as imagens que contenham algum texto?

3

Tenho muitas imagens e preciso encontrar quais delas contêm qualquer texto em inglês (para excluí-las). É possível fazer isso automaticamente?

    
por Andrey Chetverikov 17.10.2012 / 11:59

2 respostas

2

Você pode usar um mecanismo de OCR de código aberto, por exemplo, Tessaract , para descobrir se há um texto em inglês ou não.

    
por 17.10.2012 / 12:11
2

Eu tive o mesmo problema, compartilhando minha solução:

find . -type f \( -name "*.jpg" -or -name "*.png" \) -exec sh -c 'for x; do printf "%s :" "$x"; tesseract $x temp; if (grep -f blacklist temp.txt) then rm $x; rm temp.txt; fi; done' _ {} +

verifica todos os subdiretórios e exclui os padrões de OCR correspondentes de acordo com um arquivo denominado "lista negra". único problema: se houver um espaço no arquivo, ele não será analisado corretamente e tentará executar a primeira palavra do arquivo.

edit: cuidado para não deixar linhas em branco no arquivo da lista negra.

    
por 15.10.2015 / 23:45

Tags