Como encontrar todas as imagens que contenham algum texto?

Question

Como encontrar todas as imagens que contenham algum texto?

#1 resposta do (2 votos)
#2 resposta do (2 votos)

3

Tenho muitas imagens e preciso encontrar quais delas contêm qualquer texto em inglês (para excluí-las). É possível fazer isso automaticamente?

images ocr

por Andrey Chetverikov 17.10.2012 / 09:59

2 respostas

2

Eu tive o mesmo problema, compartilhando minha solução:

find . -type f \( -name "*.jpg" -or -name "*.png" \) -exec sh -c 'for x; do printf "%s :" "$x"; tesseract $x temp; if (grep -f blacklist temp.txt) then rm $x; rm temp.txt; fi; done' _ {} +

verifica todos os subdiretórios e exclui os padrões de OCR correspondentes de acordo com um arquivo denominado "lista negra". único problema: se houver um espaço no arquivo, ele não será analisado corretamente e tentará executar a primeira palavra do arquivo.

edit: cuidado para não deixar linhas em branco no arquivo da lista negra.

por 15.10.2015 / 21:45

Tags images ocr

Obtendo uma versão mais recente do GEOS do que está disponível nos repositórios do Debian Como posso instalar um novo layout de teclado no KDE 4?

score 2 · Accepted Answer

Você pode usar um mecanismo de OCR de código aberto, por exemplo, Tessaract , para descobrir se há um texto em inglês ou não.