Deseja salvar automaticamente TODAS as páginas que eu visito (como HTML ou MAFF / MHTML) - Soluções? [duplicado]

1

Eu tenho tentado resolver este problema por um longo tempo, existem múltiplas possibilidades. Isso fica complicado ...

Basicamente, a atividade que desejo automatizar é, em TODAS as páginas, qualquer visita ao navegador - a ação "clique direito, salvar como, xxx.html", para que eu tenha um registro do histórico de navegação totalmente salvo.

  1. O Shelve Add-on for Firefox faz exatamente isso automaticamente em segundo plano, e funciona muito bem (na verdade, ele pode usar o arquivo MAFF html-as-a-single-file, que é ótimo, mas esse formato diminui tudo, então eu só uso para HTML).

PROBLEMA: Eu uso 5 outros navegadores, então isso não é bom o suficiente para criar um registro completo.

  1. Eu examinei o WebCopy e o WinHTTrack da Cyotek; ambos são essencialmente rastreadores da web que recebem um URL e, em seguida, começam a separar / salvá-lo em HTML. O WinHTTTrack funciona de verdade, mas leva muito tempo (muito mais do que apenas clicar com o botão direito do mouse, salvar como xxx.html no navegador) e, pior de tudo, NÃO é automatizado.

Em teoria, o que eu teria que fazer é obter meu histórico de navegação de cada navegador, exportá-lo como um arquivo txt com addons (já que os históricos do navegador são normalmente arquivos .sqlite) e alimentá-lo como um arquivo txt, que ele aceita, ele iria rastrear essa lista de URLs para o nível 0 ou 1 ou o que quer que seja (você pode especificar a profundidade do rastreamento nesse programa em particular).

Isso é muito complicado, pois significa que não posso automatizar o processo realmente. Eu preciso alimentar manualmente URLs para o programa.

  1. Como adendo a isso, investiguei a criação de log de URL no nível do roteador / a configuração de um proxy da Web para gerar uma lista de URLs agnósticas para o navegador de todas as páginas visitadas. Em teoria, eu poderia alimentar isso com o rastreador e talvez automatizá-lo? Eu ainda não descobri para gerar este log de URL - existem alguns programas que parecem promissores: Charles (um proxy da web com logging) e Fiddler (uma ferramenta de depuração / registro da web), entre outros.

  2. Um programa chamado Proxy-offline-browser parecia promissor, já que EXATAMENTE o que eu quero usando um proxy da web para pegar todas as URLs e salvar a URL automaticamente, mas aparentemente é um tanto bugs, velho e lento muito caminho do navegador. Vou tentar entrar em contato com os desenvolvedores para ver se estou usando incorretamente.

Também parece funcionar apenas em um navegador de cada vez.

  1. Eu não acho que o que eu quero seja tão difícil.

  2. No resumo perfeito, o que eu quero é isto:

Sempre que QUALQUER navegador acessa um site, o URL é registrado (acho que o histórico da web é suficiente, mas às vezes os históricos da web parecem não capturar todas as URLs). Esses registros de todos os navegadores são combinados em uma lista gigante de URLs.

Em seguida, cada URL é visitado pelo navegador automaticamente, salvo como HTML (ou em um formato melhor). E eu teria que executar a cada hora, ou sempre que o computador estiver ocioso, etc., em algum intervalo.

  1. Como alternativa, examinei as macros, pois, em teoria, se eu apenas fizesse o clique com o botão direito do mouse em salvar em TODAS as páginas que eu visitei, reproduzo EXATAMENTE o que eu quero. Macros para navegadores, embora não pareçam funcionar, já que você precisa executar a macro manualmente, o que acaba com o propósito para mim.

  2. Alguém sabe como eu poderia fazer isso?

por OrionAnomaly 26.06.2015 / 05:24

2 respostas

0

Você mencionou que usa 5 navegadores da web. A Visão do Histórico de Navegação faz um total de 4 navegadores e parece ficar muito perto de todos os sites visitados, mas duvido que você esteja O uso do Safari e do IE está se tornando menos provável também. Ele é puxado dos próprios navegadores, então seria um save de 'pós-navegação'.

Pode ser mais fácil se isso acontecer em alguns navegadores e você puder encontrar outra coisa para os outros.

Editar: A Visão do Histórico da Navegação Tecnica na verdade puxa 9 histórias agora (8 porque tem pré-IE10 e IE10 / 11 + Borda como 2 opções separadas)

    
por 31.05.2016 / 22:20
-1

Eu estou no mesmo barco que você. A única dica de uma solução que eu encontrei é um js tweak que POSTs para um servidor local quando você visita uma página da web . Se você encontrar algo mais ou tiver encontrado uma solução melhor, eu agradeceria a informação :) Eu continuarei procurando também.

    
por 31.05.2016 / 22:06