remove o código da barra de ferramentas wayback em bewteen lines

1

Estou tentando remover o código da barra de ferramentas Wayback usando algumas ferramentas, como encontrar & xargs e grep com sed etc

problema que o tamanho do & html & arquivos php é mais de 7GB & bem como as páginas acima de (3 milhões de páginas) eu quero fazer isso para todas as páginas que começam com Wayback tooldbar que eu baixei do web.archive.org. a coisa boa que o código da barra de ferramentas do wayback é iniciar & terminar com

<!-- BEGIN WAYBACK TOOLBAR INSERT -->
 Wayback tooldbar code
 bla bla bla 
<!-- END WAYBACK TOOLBAR INSERT --> 

mas sem ordem em que linha..Então, eu tento com o comando abaixo

find . -type f -name '*.php*' | xargs -I {} grep -l '<!-- BEGIN WAYBACK TOOLBAR INSERT -->' '{}'

eu posso pegar os arquivos que contêm a barra de ferramentas

mas fiquei preso em como remover o código entre < começar e terminar >

    
por user3716621 03.11.2015 / 14:48

2 respostas

0

Você desejará usar o sed para excluir essas coisas:

find ... -print0 | 
xargs -0 sed -i '/BEGIN WAYBACK TOOLBAR INSERT/,/END WAYBACK TOOLBAR INSERT/d'
    
por 03.11.2015 / 17:25
0

Você pode recuperar uma cópia não modificada de documentos HTML da Wayback Machine anexando id_ à data / hora do instantâneo no URL.

Por exemplo:

Com a barra de ferramentas: link

Original bruto: link

    
por 09.07.2018 / 18:31