Eu tentei o mesmo para analisar extratos bancários. O que funcionou melhor para mim não foi converter para HTML, mas converter a saída para XML.
Surpreendentemente, você pode usar o mesmo comando:
pdftohtml -s -xml -enc "UTF-8" <infile> <outfile>
No entanto, usei a versão padrão (Linux) de pdftohtml
. Não sei se a variante que você está usando é totalmente retrocompatível.