Como posso determinar a contagem de páginas de odt, doc, docx e outros documentos de escritório da CLI?

Question

Como posso determinar a contagem de páginas de odt, doc, docx e outros documentos de escritório da CLI?

#1 resposta do Glutanimate (8 votos)
#2 resposta do Nykakin (5 votos)
#3 resposta do Leo (4 votos)

11

É fácil encontrar a contagem de páginas de um documento PDF na linha de comando:

pdfinfo sample.pdf | grep ^Pages:

... mas não consegui encontrar um método semelhante para odt arquivos e outros documentos do Office.

Existe uma maneira de determinar programaticamente a contagem de páginas desses documentos?

command-line pdf libreoffice microsoft-office djvu

por Glutanimate 08.06.2013 / 11:55

3 respostas

5

unzip -p document.odt meta.xml | grep -o 'page-count="[0-9]*"'

Veja aqui para mais referências .

por Nykakin 08.06.2013 / 12:19

4

Não encontrei uma maneira de extrair as informações do arquivo odt como pdfinfo , mas você pode criar um script rápido para usar pdfinfo com os arquivos odt , convertendo cada arquivo odt para PDF e mais tarde excluindo o arquivo convertido se você não for usá-lo:

libreoffice --headless --invisible --convert-to pdf sample.odt
pdfinfo sample.pdf | grep ^Pages:
rm sample.pdf

Espero que isso tenha ajudado você.

por Leo 08.06.2013 / 12:08

Tags command-line pdf libreoffice microsoft-office djvu

Problema de script de shell: script de tarefa cron para Reiniciar o servidor MySQL quando ele é interrompido acidentalmente Desativar conexão com a internet do terminal!

score 8 · Accepted Answer

Obrigado por todas as respostas, todos. Com sua ajuda, consegui compilar uma lista de comandos que podem extrair a contagem de páginas de quase todos os documentos relevantes do escritório:

DOCX / PPTX

unzip -p 'sample.docx' docProps/app.xml | grep -oP '(?<=\<Pages\>).*(?=\</Pages\>)'

unzip -p 'sample.pptx' docProps/app.xml | grep -oP '(?<=\<Slides\>).*(?=\</Slides\>)'

Nota : unzip pode ser instalado com sudo apt-get install unzip .

DOC / PPT

wvSummary sample.doc | grep -oP '(?<=of Pages = )[ A-Za-z0-9]*'

wvSummary sample.ppt | grep -oP '(?<=of Slides = )[ A-Za-z0-9]*'

Nota : wvSummary (diferencia maiúsculas de minúsculas!) faz parte do pacote wv . Instale-o com sudo apt-get install wv .

ODT

unzip -p sample.odt meta.xml | grep -oP '(?<=page-count=")[ A-Za-z0-9]*'

PDF

pdfinfo sample.pdf | grep -oP '(?<=Pages:          )[ A-Za-z0-9]*'

Nota: pdfinfo faz parte de poppler-utils e deve vir pré-instalado no Ubuntu.

DJVU

djvused -e "n" sample.djvu

Observação: djvused faz parte do pacote djvulibre-bin e pode ser instalado com sudo apt-get install djvulibre-bin .