Saída do número de palavras, caracteres ou linhas em um documento .doc ou .docx a partir da linha de comando

0

Eu tenho uma pasta cheia de arquivos .doc ou .docx. Gostaria de saber quantas palavras - ou, na sua falta, caracteres ou linhas - estão em cada arquivo sem abrir cada uma delas. (Caso de uso: sou um assistente que precisa avaliar uma tonelada de respostas de leitura a cada semana para concluir.)

Existe alguma maneira de fazer isso a partir da linha de comando? Eu gostaria de obter tudo isso em um arquivo .csv. Fico feliz em baixar algum utilitário para fazer isso.

Eu corro Arch linux, se isso importa.

    
por Pierce 13.01.2016 / 16:34

1 resposta

1

Desculpe, pensei em esquecer de adicionar este código no começo:

cp -Rp doument_directory document_directory.orig

cd document_directory
for file in *
do
  docx2txt "${file}" > "${file}.txt" && mv "${file}.txt" "${file}.doc"
done

se o seu sistema não tiver o utilitário docx2txt, você poderá obtê-lo no link

Emptor de advertência: A formatação de quebra de linha dos documentos do MS Word pode (e provavelmente será) diferente da do UNIX. Assim, a contagem de linhas pode não ser precisa, mas deve fazer o que você está procurando:

 wc file.doc

você verá uma saída assim:

 28 377 1492

O primeiro número é o número de linhas, o segundo, o número de palavras e o terceiro é o número de caracteres.

Se você quiser fazer apenas um tipo de contagem por vez, faça o seguinte:

Para o número de linhas

wc -l file.doc

Para o número de palavras

wc -w file.doc

Para o número de caracteres

wc -c file.doc

E você receberá um único número seguido pelo nome do arquivo.

    
por 13.01.2016 / 16:42