O bom Lynx pode fornecer-lhe a maioria dos recursos solicitados. Tente lynx -dump http://superuser.com/
, por exemplo.
Você também pode usar wget
para rastrear recursivamente os sites de que precisa e processar os arquivos com vários conversores disponíveis, como htmltidy .