Analisador docx padrão do Ubuntu

1

Acabei de instalar o Recoll para indexar meus arquivos de texto. Funciona como um encanto, mas o que me surpreendeu é que ele foi capaz de indexar docx por padrão, enquanto pediu para instalar o antiword para indexar arquivos de documentação. Eu sei doc e docx têm diferentes tipos de MIME, mas ambos podem ser facilmente abertos pelo Libre.

O que eu quero entender é: como os arquivos docx foram analisados de forma diferente, enquanto os arquivos de documentação exigiam um aplicativo adicional (antiword)? Ou é Lible é usado por padrão apenas para docx (o que eu duvido porque quando navego meus arquivos no Nautilus doc e docx são reconhecidos como arquivos LibleOffice) ou o Ubuntu tem algum outro analisador de docs que eu não conheço?

De qualquer forma, fico surpreso ao ver que arquivos do Win Office mais complexos são melhor suportados do que os mais simples.

ATUALIZAÇÃO: Apenas verifiquei os dois tipos MIME com xdg-mine. Minha pergunta ainda permanece. Por que os arquivos doc não foram indexados por padrão?

yuranos@yuranos-XPS-15-9550:~/development$ xdg-mime query default application/msword
libreoffice-writer.desktop
yuranos@yuranos-XPS-15-9550:~/development$ xdg-mime query default application/vnd.openxmlformats-officedocument.wordprocessingml.document
libreoffice-writer.desktop
    
por yuranos87 05.03.2017 / 11:48

1 resposta

2

Os arquivos docx são baseados em XML e são analisados por Recoll usando uma transformação xslt simples. Dependendo das versões do Recoll, isso só precisa do xsltproc ou do libxml2 / libxslt do Python para ser instalado. Estas são dependências comuns e podem estar no seu sistema por algum outro motivo.

O antigo formato .doc é um formato binário que não pode ser processado diretamente pelo recoll, que usa anti-palavras para extrair o texto.

    
por medoc 11.03.2017 / 19:34