Extrai texto do pdf, arquivo do MS e outro documento [closed]

-1

Eu preciso de uma ferramenta de linha de comando que irá extrair texto simples de arquivos do MS Office (todos os formatos), pdf e outros formatos de arquivo.

Eu olhei para a linha de comando do libre office, mas não consegui encontrar os filtros para todos os formatos

    
por coder 12.09.2013 / 06:23

1 resposta

1

Para arquivos do office, você pode usar:

libreoffice --headless --convert-to output_file_extension[:output_filter_name] [--outdir out‐put_dir] file

Mais sobre:

Para arquivos pdf, vejo que você encontrou pdftotext .

    
por Radu Rădeanu 12.09.2013 / 07:07