Portanto, com a direção do user-ralfiedl, o seguinte funciona com o Tessearct 4.0 baseado em LSTM mais recente no MacOSX.
Atualizado: consegui descobrir como inserir tudo isso no .profile ou. bashrc que é onde eu queria, em primeiro lugar ... o seguinte não precisa de variáveis para o arquivo txt.
function do_ocr () {
#find . -name '*.pdf' -o -name '*.jpg' -o -name '*.tif' -o -name '*.png' -o -name '*.jpeg' -o -name '*.tiff'
find_all_formats | parallel --tag -j 2 \
ocrmypdf -l ori+por+srp+hin+chi_sim+spa+uzb_cyrl+mar+swa+ces+urd+nep+cat+mya+lit+dan+mlt+enm+bod+tir+tgl+tha+fas+hrv+ukr+lao+ben+eus+eng+dzo+nld+vie+ita+kir+pus+msa+heb+slv+kaz+rus+eng+vie+ukr+spa \
--clean --deskew --rotate-pages --image-dpi 300 --jpeg-quality 75 --png-quality 75 \
-i -f -O 2 --sidecar - --force-ocr '{}' '{}' --verbose 1
}
Nota: Você tem que recompilar cada um dos conjuntos de treinamento para 4.0 que, como o brew, instala o Tessearact 4.0 - Github Link para instruções para instalar dados treinados 4.0
Atualização: há um arquivo docker do Tesseract 4.0 que você precisa adicionar os dados do idioma e as instruções passo a passo do MacOSX para a instalação - certifique-se de ter o Java 8 co-instalado e em seu ambiente para o ScrollViewer.jar. Se você conseguir isso, então a função acima permite que você use todos os idiomas "detectar automaticamente" e, em seguida, ocr imagens, se possível, converter para PDF e produzir um arquivo txt sidecar do conteúdo (no idioma original).
Meu próximo esforço será criar algo que leve documentos do Office em linguagem e os traduza e use Aprendizado de Máquina, adicionando mais dados aos arquivos de texto que OCRing as imagens.