Eu posso fazer isso usando o comando awk
sem receber erro de falha de segmentação.
awk 'f;/Skills & Expertise/{f=1}' foo.txt
O comando acima funciona bem.
Estou extraindo o código-fonte HTML de uma página da Web usando o comando abaixo.
curl http://www.linkedin.com/pub/ramesh-venkataraman/63/621/b42 -s | w3m -dump -T text/html > foo.txt
O foo.txt
tem o conteúdo da página da Web sem tags HTML. Agora, eu sei que na minha página existe uma seção particular que sempre começa com uma palavra-chave. Por exemplo, após o comando acima, executo o comando abaixo para extrair da substring desse valor específico.
pcregrep -M 'Skills & Expertise(\n|.)*' foo.txt > foo1.txt
O comando acima funciona perfeitamente bem. Agora, o problema é quando a página se torna muito grande, estou recebendo Segmentation fault
erro.
Acredito que Segmentation fault
ocorre porque o comando grep tenta fazer uma correspondência gulosa e está falhando.
Existe uma maneira eficiente de substituir o comando pcregrep
acima para que eu não receba o erro Segmentation fault
?