Para arquivos do office, você pode usar:
libreoffice --headless --convert-to output_file_extension[:output_filter_name] [--outdir out‐put_dir] file
Mais sobre:
- Veja
man libreoffice
- Como extrair apenas texto sem formatação de .doc & amp; .docx arquivos? (unix)
Para arquivos pdf, vejo que você encontrou pdftotext
.