Eu uso um script Python que usa o módulo docx.py
(consulte aqui ) para ler o Word arquivos e processar as palavras individuais para uma tarefa relacionada. Os bits de chave estão no código a seguir (que apenas lê um arquivo .docx dado como o primeiro argumento de linha de comando, mas pode ser facilmente expandido para contar palavras em muitos arquivos:
from docx import *
import sys
try:
document = opendocx(sys.argv[1])
except:
print('Could not open '+sys.argv[1])
exit()
## Fetch all the text out of the document
paratextlist = getdocumenttext(document)
count = {}
for line in paratextlist:
for word in line.rstrip().split():
count{word} = count.get(word,0) + 1