Como extrair imagens do documento do Word do Linux

6

Existe uma ferramenta de linha de comando (Linux) para extrair todas as imagens de um documento do MS Word (de preferência uma que possa manipular o formato .docx)?

    
por Hooked 23.05.2011 / 22:04

2 respostas

14

Como os arquivos docx são arquivos zip, você pode descompactar o arquivo docx e depois selecionar os arquivos de imagem.

Não tenho o Microsoft Office para testar, então baixei alguns arquivos docx aleatórios da Internet. Parece que as imagens são sempre armazenadas em um diretório word/media no arquivo.

Este comando irá extrair todos os arquivos do diretório media do arquivo:

unzip foo.docx "word/media/*"

Este comando irá extrair apenas *.jpeg arquivos:

unzip foo.docx "*.jpeg"

Observe que você precisa especificar "*.jpg" se os arquivos forem salvos como jpg em vez de jpeg . Eu suponho que também é possível que as imagens sejam armazenadas usando um formato diferente. Não tenho idéia se as imagens podem ser armazenadas em outro local diferente do diretório word/media . Você pode usar unzip -l para listar o conteúdo do arquivo.

    
por 23.05.2011 / 23:06
0

Salvar um documento do Word como uma página da Web é uma técnica usada no Windows para extrair todas as imagens em uma pasta: link

Pode ser demorado, mas talvez você possa controlar o Open Office no Linux a partir da linha de comando para extrair as imagens, possivelmente convertendo-as em uma página da Web e terminando com as imagens na pasta de suporte que ele criaria.

    
por 07.08.2012 / 11:00