Infelizmente, o wget não pode analisar JavaScript, portanto, o spidering desse site é bastante difícil.
A boa notícia é que os mecanismos de pesquisa geralmente não o analisam , por isso, eles provavelmente estão alimentando um conteúdo um pouco diferente dos mecanismos de pesquisa (o que é uma má idéia para
wget --user-agent="Mozilla/5.0 (compatible; Googlebot/2.1; +http://www. google.com/bot.html)" ...
Alguns poucos sites verificam seu endereço IP para ver se você é realmente o Googlebot, mas isso é muito menos comum do que deveria.
Outra coisa a fazer é verificar a presença de um arquivo /sitemap.xml
e usá-lo como uma lista de URLs a serem rastreados. Alguns sites fornecem este arquivo para que o Google e outros mecanismos de pesquisa usem para aranha seu conteúdo, mas nada diz que você também não pode usá-lo ...