Você pode usar um mecanismo de OCR de código aberto, por exemplo, Tessaract , para descobrir se há um texto em inglês ou não.
Tenho muitas imagens e preciso encontrar quais delas contêm qualquer texto em inglês (para excluí-las). É possível fazer isso automaticamente?
Você pode usar um mecanismo de OCR de código aberto, por exemplo, Tessaract , para descobrir se há um texto em inglês ou não.
Eu tive o mesmo problema, compartilhando minha solução:
find . -type f \( -name "*.jpg" -or -name "*.png" \) -exec sh -c 'for x; do printf "%s :" "$x"; tesseract $x temp; if (grep -f blacklist temp.txt) then rm $x; rm temp.txt; fi; done' _ {} +
verifica todos os subdiretórios e exclui os padrões de OCR correspondentes de acordo com um arquivo denominado "lista negra". único problema: se houver um espaço no arquivo, ele não será analisado corretamente e tentará executar a primeira palavra do arquivo.
edit: cuidado para não deixar linhas em branco no arquivo da lista negra.