___ qstnhdr___ sed substituição não funcionará (regex) ______ qstntxt ___

Estou tentando remover o texto antes da palavra italiana "ANDATA" no arquivo pdf de uma linha de ônibus. Estou usando isso

%pre%

mas isso não funciona. Apenas remove a palavra "ANDATA". Eu também tentei remover todas as novas linhas e, em seguida, executar a operação

%pre%

Não há novas linhas, mas ainda não funciona.

O que devo fazer?

EDIT 2 A palavra ANDATA ocorre mais de uma vez no texto, mas eu quero apenas remover o que está antes da primeira ocorrência.

EDITAR

entrada

%pre%

output (com meu regex)

%pre%

EDIT 3

SAÍDA DESEJADA

%pre%     
______ azszpr333230 ___

Tente este comando

%pre%

removerá o texto antes da palavra ANDATA

    
___

1

Estou tentando remover o texto antes da palavra italiana "ANDATA" no arquivo pdf de uma linha de ônibus. Estou usando isso

pdftotext "file.pdf" - | sed -r "s/^.*ANDATA//g"

mas isso não funciona. Apenas remove a palavra "ANDATA". Eu também tentei remover todas as novas linhas e, em seguida, executar a operação

pdftotext "file.pdf" - sed -r "s/\s//g" | sed -r "s/^.*ANDATA//g"

Não há novas linhas, mas ainda não funciona.

O que devo fazer?

EDIT 2 A palavra ANDATA ocorre mais de uma vez no texto, mas eu quero apenas remover o que está antes da primeira ocorrência.

EDITAR

entrada

PIAZZA OBERDAN - UNIVERSITA' - S.CILINO STR. NUOVA PER OPICINA - OPICINA VILLA CARSIA - CAMPO ROMANO - VILLA CARSIA L’orario è passibile di variazioni per esigenze contingenti TRIESTE TRASPORTI S.p.A. Via dei Lavoratori, 2 Numero Verde: 800-016675 LINEA 4 FERIALE LUNEDI' - VENERDI' ANDATA VILLA CARSIA OPICINA VIA CANTU' PIAZZA OBERDAN PIAZZA TOMMASEO PROSECCO DEVINCINA 5:10 5:15 | 5:35 | | 5:30 5:35 | 5:55 | | 6:00 6:05 | 6:25 | | 6:15 6:20 | 6:40 | | 6:30 6:35 | 6:55 | | 6:45 6:50 | 7:10 | | 6:55 7:00 | 7:20 | | 7:10 7:15 | 7:35 | | 7:20 7:25 | 7:45 | | 7:30 7:35 | 7:55 | | 7:45 7:50 | 8:10 | | 8:00 8:05 | 8:25 | | 8:25 8:30 | 8:50 | | 8:50 8:55 | 9:15 (etc..)

output (com meu regex)

PIAZZA OBERDAN - UNIVERSITA' - S.CILINO STR. NUOVA PER OPICINA - OPICINA VILLA CARSIA - CAMPO ROMANO - VILLA CARSIA L’orario è passibile di variazioni per esigenze contingenti TRIESTE TRASPORTI S.p.A. Via dei Lavoratori, 2 Numero Verde: 800-016675 LINEA 4 FERIALE LUNEDI' - VENERDI' VILLA CARSIA OPICINA VIA CANTU' PIAZZA OBERDAN PIAZZA TOMMASEO PROSECCO DEVINCINA 5:10 5:15 | 5:35 | | 5:30 5:35 | 5:55 | | 6:00 6:05 | 6:25 | | 6:15 6:20 | 6:40 | | 6:30 6:35 | 6:55 | | 6:45 6:50 | 7:10 | | 6:55 7:00 | 7:20 | | 7:10 7:15 | 7:35 | | 7:20 7:25 | 7:45 | | 7:30 7:35 | 7:55 | | 7:45 7:50 | 8:10 | | 8:00 8:05 | 8:25 | | 8:25 8:30 | 8:50 | | 8:50 8:55 | 9:15 (etc)

EDIT 3

SAÍDA DESEJADA

VILLA CARSIA OPICINA VIA CANTU' PIAZZA OBERDAN PIAZZA TOMMASEO PROSECCO DEVINCINA 5:10 5:15 | 5:35 | | 5:30 5:35 | 5:55 | | 6:00 6:05 | 6:25 | | 6:15 6:20 | 6:40 | | 6:30 6:35 | 6:55 | | 6:45 6:50 | 7:10 | | 6:55 7:00 | 7:20 | | 7:10 7:15 | 7:35 | | 7:20 7:25 | 7:45 | | 7:30 7:35 | 7:55 | | 7:45 7:50 | 8:10 | | 8:00 8:05 | 8:25 | | 8:25 8:30 | 8:50 | | 8:50 8:55 | 9:15 (etc..)
    
por Andre99 28.12.2016 / 10:14

1 resposta

0

Tente este comando

pdftotext "file.pdf" -|tr -d '\n'|sed -r 's/^.*ANDATA/ANDATA/'

removerá o texto antes da palavra ANDATA

    
por 28.12.2016 / 10:29