Ferramenta de linha de comando para pesquisar o arquivo docx em ms dos ou cygwin

2

Existe uma ferramenta de linha de comando que pode pesquisar o arquivo .docx no MS DOS ou no Cygwin?

Eu tentei o Grep, ele não está funcionando com .docx enquanto funcionava bem com o arquivo .txt .

Eu sei que sempre posso converter o .docx para .txt 1st e depois pesquisar usando o Grep, mas estou pensando:

Existe uma ferramenta de comando que eu possa pesquisar diretamente sob a linha de comando?

OP edit: Mais tarde, descobri que a maneira mais fácil de obter o grep é convertê-los em docx para txt e depois passar por eles.

    
por Gob00st 06.01.2012 / 16:48

2 respostas

3

Existem muitas bibliotecas que permitem ler ou manipular arquivos DOCX. Pensando em Apache POI , ou python-docx , por exemplo. Eu não sei se já existe um wrapper que permite que você grep um DOCX, mas isso certamente não seria muito difícil de fazer usando POI (eu não tenho experiência com python-docx. Pode ainda ser uma solução mais rápida .).

EDITAR:

Além disso, mais simples, você pode descompactar o DOCX (porque na verdade é apenas um arquivo ZIP) e percorrer o conteúdo, como sugerido aqui .

    
por 06.01.2012 / 17:04
0

Eu costumava usar antiword / catdoc para esse propósito. Obviamente, houve algum trabalho em expandir a funcionalidade para incluir também os arquivos docx. :-) link

    
por 07.01.2012 / 06:33