Existem pdftotext para PDFs e antiword para DOC (não tenho certeza sobre DOCX). Ambos software livre para linha de comando. Usado tanto no Linux antes, funcionou muito bem.
O Sphider, um mecanismo de pesquisa gratuito, usa pdftotext e catdoc . catdoc eu usei também, e trabalhei bem também.
Para arquivos DOC, há também wv e abiword ( abiword é uma GUI, mas também possui uma interface de linha de comando). Não foi capaz de testá-los, no entanto.
Uma dica para DOCX:
Eu usei isso para converter DOC para PDF antes, foi muito bom. Talvez ele também seja compatível com TXT ou você pode usar pdftotext . LiveDocX também pode ser acessado através de um serviço web SOAP
PS: há também as ferramentas de linha de comando pdftohtml
, pdftk
e, em seguida, a suíte / s LibreOffice
, OpenOffice
, que pode levar DOCX e converter nativamente / salvar tudo em texto. Não tente o LibreOffice e o OpenOffice a partir da linha de comando, embora ...