Como os arquivos docx são arquivos zip, você pode descompactar o arquivo docx e depois selecionar os arquivos de imagem.
Não tenho o Microsoft Office para testar, então baixei alguns arquivos docx aleatórios da Internet. Parece que as imagens são sempre armazenadas em um diretório word/media
no arquivo.
Este comando irá extrair todos os arquivos do diretório media
do arquivo:
unzip foo.docx "word/media/*"
Este comando irá extrair apenas *.jpeg
arquivos:
unzip foo.docx "*.jpeg"
Observe que você precisa especificar "*.jpg"
se os arquivos forem salvos como jpg
em vez de jpeg
. Eu suponho que também é possível que as imagens sejam armazenadas usando um formato diferente. Não tenho idéia se as imagens podem ser armazenadas em outro local diferente do diretório word/media
. Você pode usar unzip -l
para listar o conteúdo do arquivo.