Instale imagemagick
, pdftotext
(encontrado em um pacote chamado poppler-utils
dentro de alguns gerenciadores de pacotes) e ocrmypdf . O último é rápido (o OCr ocupa muito a CPU e é configurado para usar todos os seus núcleos), um software de OCR de código aberto e freqüentemente atualizado. Essa abordagem é possivelmente exagerada, já que ela realmente tenta atribuir uma string a cada palavra, em vez de simplesmente rotular uma palavra, mas eu tive muitas dificuldades para encontrar um software OCR de código aberto de maneira simples e fácil. Então, no diretório onde você salvou todos os seus JPGs:
$ convert *.jpg pictures.pdf
$ ocrmypdf pictures.pdf scanned.pdf
$ pdftotext scanned.pdf scanned.txt
$ wc -w scanned.txt