Como posso obter os números de página apenas de um padrão em um arquivo pdf, independentemente de o padrão ser multilinha?

Question

Como posso obter os números de página apenas de um padrão em um arquivo pdf, independentemente de o padrão ser multilinha?

#1 resposta do (4 votos)
#2 resposta do (1 votos)

1

Eu acho os números de página de um padrão multilinha em um arquivo pdf, por Como devo grep um padrão de várias linhas em um arquivo pdf e em um arquivo de texto? e

$ pdfgrep -Pn '(?s)image\s+?not\s+?available'  main_text.pdf 
49: image
   not
available
51: image
   not
available
53: image
   not
available
54: image
   not
available
55: image
   not
available

Eu gostaria de extrair apenas o número da página, mas como o padrão é multilinha, recebo

$ pdfgrep -Pn '(?s)image\s+?not\s+?available'  main_text.pdf | awk -F":" '{print $1}'
49
   not
available
51
   not
available
53
   not
available
54
   not
available
55
   not
available

em vez de

Gostaria de saber como posso extrair apenas os números das páginas, independentemente de o padrão ser multilinha? Obrigado.

pdf grep text-processing awk pdfgrep

por Tim 22.07.2018 / 23:26

2 respostas

1

Adicione $0~":" como reconhecedor do awk. Ou seja, você pega a linha:

 .... | awk -F":" '$0~":"{print $1}'

Com isso, a impressão será apenas quando a linha de entrada tiver um ":" e outras linhas forem descartadas.

por 22.07.2018 / 23:38

Tags pdf grep text-processing awk pdfgrep

substituindo o shell atual por execl () “^ barra invertida não é o último caractere on line” em gawk

score 4 · Accepted Answer

É um pouco hacky, mas como você já usa um RE compatível com perl, pode usar o modificador \K "keep left" para corresponder a tudo na sua expressão (e qualquer outra coisa até o fim da próxima linha), mas excluí-la da saída:

pdfgrep -Pn '(?s)image\s+?not\s+?available.*?$\K'  main_text.pdf

A saída ainda incluirá o separador : , no entanto.