Se você puder processar os arquivos em bash
, este one-liner irá descompactar todo o texto:
unzip -qc "$1" ppt/slides/slide*.xml | grep -oP '(?<=\<a:t\>).*?(?=\</a:t\>)'
Apenas passe o arquivo pptx como $1
e ele gravará o texto no arquivo $2
. O conteúdo de cada slide não aparecerá na ordem de apresentação, e não haverá rótulos nem nada, então você precisará de mais algumas linhas de script e um diretório temporário para obter uma lista mais legível.