Os arquivos docx são baseados em XML e são analisados por Recoll usando uma transformação xslt simples. Dependendo das versões do Recoll, isso só precisa do xsltproc ou do libxml2 / libxslt do Python para ser instalado. Estas são dependências comuns e podem estar no seu sistema por algum outro motivo.
O antigo formato .doc é um formato binário que não pode ser processado diretamente pelo recoll, que usa anti-palavras para extrair o texto.