WGet ou cURL: Mirror Site de http://site.com e sem acesso interno

2

Eu tentei wget -m wget -r e um monte de variações. Estou obtendo algumas das imagens no link , um dos scripts, e nenhum dos CSS, mesmo com o parâmetro fscking -p . A única página HTML é index.html e há vários mais referenciados, então estou perdido. curlmirror.pl no site dos desenvolvedores da cURL também não parece ter terminado o trabalho. Há algo que estou perdendo? Eu tentei diferentes níveis de recursão com apenas esta URL, mas tenho a sensação de que estou perdendo alguma coisa. Para encurtar a história, alguma escola permite que seus alunos enviem projetos na web, mas eles querem saber como eles podem coletar tudo para o instrutor que o classificará, em vez de ele ir para todos os sites externos.

UPDATE : acho que descobri a questão. Eu pensei que os links para as outras páginas estavam na página index.html que foi baixada. Eu estava caminho desligado. Acontece que o rodapé da página, que tem todos os links de navegação, é manipulado por um arquivo JavaScript Include.js , que lê JLSSiteMap.js e alguns outros arquivos JS para navegação na página e similares. Como resultado, o wget não pega outras dependências porque muitas dessas porcarias não são tratadas em páginas da web. Como posso lidar com esse site? Este é um dos vários casos problemáticos. Eu suponho que pouco pode ser feito se o wget não puder analisar JavaScript.

    
por songei2f 10.02.2011 / 23:12

2 respostas

1

Infelizmente, o wget não pode analisar JavaScript, portanto, o spidering desse site é bastante difícil.

A boa notícia é que os mecanismos de pesquisa geralmente não o analisam , por isso, eles provavelmente estão alimentando um conteúdo um pouco diferente dos mecanismos de pesquisa (o que é uma má idéia para outras razões ) para que eles possam indexar suas páginas. Eles precisam alimentar as páginas dos mecanismos de pesquisa que podem ser acessadas sem JavaScript se quiserem realmente ser indexadas. Se esse for o caso, você pode contornar isso falsificando o Googlebot com o wget, como:

wget --user-agent="Mozilla/5.0 (compatible; Googlebot/2.1; +http://www. google.com/bot.html)" ...

Alguns poucos sites verificam seu endereço IP para ver se você é realmente o Googlebot, mas isso é muito menos comum do que deveria.

Outra coisa a fazer é verificar a presença de um arquivo /sitemap.xml e usá-lo como uma lista de URLs a serem rastreados. Alguns sites fornecem este arquivo para que o Google e outros mecanismos de pesquisa usem para aranha seu conteúdo, mas nada diz que você também não pode usá-lo ...

    
por 18.07.2012 / 03:35
-1

Talvez algo assim:

link

ou isto:

link

    
por 11.02.2011 / 00:00

Tags