pcregrep falha devido a falha de segmentação

2

Estou extraindo o código-fonte HTML de uma página da Web usando o comando abaixo.

curl http://www.linkedin.com/pub/ramesh-venkataraman/63/621/b42 -s |  w3m -dump -T text/html > foo.txt

O foo.txt tem o conteúdo da página da Web sem tags HTML. Agora, eu sei que na minha página existe uma seção particular que sempre começa com uma palavra-chave. Por exemplo, após o comando acima, executo o comando abaixo para extrair da substring desse valor específico.

pcregrep -M 'Skills & Expertise(\n|.)*' foo.txt > foo1.txt

O comando acima funciona perfeitamente bem. Agora, o problema é quando a página se torna muito grande, estou recebendo Segmentation fault erro.

Acredito que Segmentation fault ocorre porque o comando grep tenta fazer uma correspondência gulosa e está falhando.

Existe uma maneira eficiente de substituir o comando pcregrep acima para que eu não receba o erro Segmentation fault ?

    
por Ramesh 11.02.2014 / 21:39

1 resposta

1

Eu posso fazer isso usando o comando awk sem receber erro de falha de segmentação.

awk 'f;/Skills & Expertise/{f=1}' foo.txt

O comando acima funciona bem.

    
por 11.02.2014 / 22:12

Tags