Não tenho certeza se isso é uma opção para você, mas você poderia usar outro formato baseado em texto simples (como TeX ou HTML) e tentar filtrar as informações por uma linguagem de script como Perl ou Python, , desde que a saída seja "simples" o suficiente, mesmo usando um editor de texto inteligente e expressões regulares poderiam fazer o trabalho).
Observe que, embora você possa usar o Word para exportar para esse formato, mas se você puder usar o formato imediatamente no software de OCR, eu definitivamente tentarei usá-lo primeiro. Como regra geral para editores WYSIWYG, os arquivos exportados em formatos de marcação tendem a ser extremamente complicados.