Baixe o site e torne-o pesquisável

2

Existe um software (além do navegador) que leva várias páginas que foram baixadas com wget , exibe-as e - o recurso mais importante - oferece uma pesquisa rápida de texto como HTML (não texto sem formatação com tags como grep) Deve ser fácil de instalar / configurar.

    
por chiborg 09.12.2013 / 16:54

3 respostas

2

Para espelhar um site , gosto de usar httrack em vez de wget com opções de recuperação recursiva .

Descrição : HTTrack salva sites no seu computador (navegador off-line).

HTTrack é um utilitário de navegação offline , permitindo que você baixe um site da World Wide Web da Internet para um diretório local, criando recursivamente todos  diretórios, obtendo html, imagens e outros arquivos do servidor para o seu computador.

HTTrack organiza a estrutura de links relativa do site original . Basta abrir uma página do site "espelhado" no seu navegador e você pode navegar pelo  site de link para link , como se estivesse visualizando on-line. O HTTrack também pode atualizar um site espelhado existente e retomar os downloads interrompidos. HTTrack  é totalmente configurável e possui um sistema de ajuda integrado.

Para instalar no terminal:

sudo apt-get install httrack
    
por precise 09.12.2013 / 17:38
1

Depois de espelhar corretamente seu site com wget ou qualquer outra coisa, apenas faça um cd no diretório raiz de páginas da web baixadas e execute-o:

find . -iname "*.htm*" -exec grep -l "WHAT_YOU_ARE_SEARCHING_GOES_HERE" {} + | xargs -d "\n" firefox

Em seguida, o firefox abrirá todas as páginas que contiverem sua pesquisa.

(Ou um pouco mais se o termo de pesquisa estiver presente apenas nas tags HTML da página da Web. Se isso for um problema para você, também poderá ser resolvido por outro canal, que filtra as tags HTML.)

    
por falconer 09.12.2013 / 18:02
0

Você poderia usar o grep, mas canalizar a saída em uma página da Web, para que seja compreensível, pois a maioria das tags seria removida, por exemplo:

grep -d recurse 'SEARCH-TERM' /PATH/TO/FOLDER/WITH/WEBPAGE-FILES > OUTPUT.html

Isso removeria a maioria das tags e outras coisas, embora ele fosse cortado para linhas individuais, portanto, você poderia usar a opção -C para mostrar um pouco do contexto do resultado da pesquisa.:

grep -d recurse -C 5 'SEARCH-TERM' /PATH/TO/FOLDER/WITH/WEBPAGE-FILES > OUTPUT.html

em que 5 é o número de linhas em cada direção para dar mais contexto ao resultado da pesquisa.

Para mais opções, consulte man grep

Realmente, um navegador da web é a melhor ferramenta para pesquisar uma página da web - não consigo pensar em muito mais

Ah, e para garantir que você pesquise apenas as páginas da Web (com a extensão .htm ou .html):

find . -name "*.htm*" -exec grep -d recurse -C 5 'SEARCH-TERM' /PATH/TO/FOLDER/WITH/WEBPAGE-FILES > OUTPUT.html

Além disso, para melhorar o download de páginas da Web / sites com wget , procure aqui .

    
por Wilf 09.12.2013 / 17:53