Como extrair o texto dos documentos do MS Office no Linux?

17

Eu preciso de uma maneira de extrair o texto de todos os tipos de documentos do MS Office (Word, Excel, Powerpoint), no Linux. Eu imagino que pode haver várias abordagens diferentes para realizar isso, como um script Bash ou Python, ou convertê-los em PDF e, em seguida, extrair o texto usando uma ferramenta como pdftotext.

Isso parece ser um requisito comum. Existe um procedimento ou ferramenta estabelecida para realizar isso facilmente?

    
por Phyo Arkar Lwin 21.07.2010 / 07:35

9 respostas

6

Eu finalmente encontrei a ferramenta perfeita para a criação de scripts de análise de documentos, é o apache-tika, ele pode analisar em formato texto textos que não são de texto, o que é muito legal!

Obtenha o Apache Tika aqui:

link

(usuários do Mac Homebrew: brew install tika )

A interface da linha de comando funciona assim:

tika --text something.docx > something.txt

    
por 02.12.2010 / 00:41
16

Catdoc pode converter doc, xls e amp; ppt para texto. A segunda opção seria o wvWare .

Para mais utilidades, marque a ligação por palavra para coverers de texto e

    
por 21.07.2010 / 08:31
7
O

Abiword pode converter a partir da linha de comando entre qualquer formato de arquivo que ele conheça.

Converter do Word para texto simples:

abiword --to=txt myfile.doc

Faça um pdf a partir de um arquivo do Word:

abiword --to=pdf myfile.doc

E assim por diante. Os resultados nesses casos seriam myfile.txt ou myfile.pdf. Se você quiser especificar o nome da saída, você também pode fazer isso:

abiword --to=txt --to-name=output.txt myfile.doc

Converter ODT para Word:

abiword --to=doc myfile.odt

Converter o Word em ODT:

abiword --to=odt myfile.doc

Para ser justo com outras respostas, deve-se notar que o AbiWord usa o wvWare para lidar com documentos do Word, mas até mesmo a página inicial do wvWare recomenda usar o AbiWord em vez da maioria das conversões.

Eu odeio processadores de texto. Esta é a principal razão pela qual eu tenho o AbiWord instalado.

Você também pode estar interessado em unoconv , que é uma ferramenta semelhante que suporta formatos que o OpenOffice conhece (o que seria incluir planilhas e afins), mas não tenho experiência com isso pessoalmente.

    
por 10.09.2010 / 01:57
4

Com o LibreOffice você pode fazer:

libreoffice --invisible --convert-to pdf file1.ppt file2.ppt
    
por 16.04.2012 / 10:02
0

Você pode usar o CUPS (impressora virtual) e usando o ld.

    
por 21.07.2010 / 07:49
0

wv é uma opção e o OpenOffice IIRC pode ser contado a partir da linha de comando para exportar como pdf e sair.

    
por 23.10.2010 / 13:17
0

Se você quiser usar o Apache Tika em um projeto Python, confira esta postagem no blog .

    
por 01.02.2012 / 14:59
0

1.doc catdoc ou antiword para arquivos doc para converter você pode usar o seguinte comando catdoc file.doc > Arquivo ou arquivo antiword. doc > arquivo

  1. docx docx2txt

  2. pdf emacs file.pdf arquivo ctrl-x ctrl-s

por 15.04.2013 / 18:55
-1

Docsplit é a ferramenta perfeita para extrair o texto do pdf. É uma jóia de rubi. Então você deve instalar o ruby e gem em seu sistema linux antes de usar o comando docsplit.

Se o seu sistema não tiver o rubi e a gema, siga as instruções.

Você deve ser root para instalar o software (supondo que você quer que ele esteja disponível para todos os usuários).

Instale o ruby no linux: yum install ruby
Instale a gema, faça o download do último pacote gem e siga as instruções

tar xzf rubygems-x.x.xx.tgz
cd rubygems-x.x.xx
ruby setup.rb

Agora que o RubyGems está instalado, você deve ter o comando gem (gem é o comando usado para interagir com o sistema de pacotes RubyGems). Teste-o executando:

lista de gema

Agora, vá para o próximo passo, para instalar a gem docsplit, por favor, vá para o seguinte site. link

    
por 24.03.2011 / 06:47