A opção wget
relevante é -p
/ --page-requisites
:
This option causes Wget to download all the files that are necessary to properly display a given HTML page. This includes such things as inlined images, sounds, and referenced stylesheets.
-H
/ --span-hosts
também é recomendado se a página usar qualquer coisa de outro site (gravatar, google APIs).
-O
/ --output-document
resultará em um único arquivo, sem nenhuma marcação ou estrutura. Isso não é muito útil na maior parte do tempo, mas é bom o suficiente se você só precisa saber seu tamanho.
wget -p -H 'http://www.example.com/' -O tempfile
wc -c < tempfile