Grep no Microsoft Word?

10

Grep no Microsoft Word?

Eu gostaria de puxar todas as linhas com uma determinada string de um documento do Word. No mundo unix ... o grep faz isso sem falhas. O Windows é menos que óbvio para mim.

    
por fretje 13.11.2009 / 19:42

6 respostas

10

Com o Cygwin (ou acesso a uma máquina Linux) você pode

antiword file.doc | grep "my phrase"

ou

catdoc file.doc | grep "my phrase"

Existem muitos conversores de formato de arquivo de linha de comando disponíveis para o grep de maneira semelhante.

A solução puramente em Word pode ser Ctrl + F (Localizar) e, em seguida, Localizar tudo - no entanto, não tenho certeza se todas as versões do MS Word tem o botão Localizar todos .

    
por 13.11.2009 / 21:54
3

Eu sei que isso soa primitivo, mas o que impede você de salvar o arquivo como .txt e separá-lo ao seu gosto.

    
por 14.11.2009 / 01:51
1

O que significa "linha" em um contexto do Word? A linha exibida, que muda se você fizer alguma coisa na formatação da página? O parágrafo? Algo mais?

Você pode fazer um monte de coisas com as funções de localizar e substituir do Word, incluindo alterar a formatação e outras coisas não óbvias, mas todas elas só agirão sobre o texto localizar-o, não em qualquer texto adjacente .

    
por 14.11.2009 / 01:10
1

Há suporte para documentos do MS - Word, PowerPoint, Excel - em CRGREP que desenvolvi como uma ferramenta gratuita de código aberto . Ele também procura outras coisas difíceis de pesquisar, como tabelas de banco de dados, imagens, áudio, arquivos, PDF e combinações destes. Divirta-se.

    
por 14.07.2015 / 17:14
0

PowerGREP fará exatamente exatamente isso a> para você e rápido - mas não livre. Vale a pena cada centavo, na minha opinião. Além disso, há uma avaliação gratuita de 30 dias.

    
por 15.12.2009 / 08:56
0

Não tenho representante suficiente para comentar, mas posso ver essa questão do doc vs docx discutida para que qualquer pessoa que persiga o tópico (como eu) possa achar isso útil.

Você não precisa de uma ferramenta especial para arquivos docx. docx são arquivos XML compactados.

Para extrair e remover o XML, tente algo com base em

unzip -p "*.docx" word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'

de linha de comando fu

    
por 18.07.2018 / 12:21