Eu apenas uso o wget todas as noites. FWIW, aqui estão os parâmetros que eu uso:
-N - ativa o registro de data e hora
-r - recursivo
-k - converter links
-nv - Desativa o registro detalhado
-o - log de saída
-i - arquivo de entrada de sites para rastrear
-m - espelho
-w1 - aguarde 1 segundo entre os pedidos
- random-wait - usa tempos de espera aleatórios entre solicitações
-np - sem pai, nunca ascende ao diretório pai
-p - baixa todos os pré-requisitos da página (folhas de estilo, scripts, etc.)
-X - diretórios para excluir
-R - nomes de arquivos a serem rejeitados
Hosts de-H-span (limitados por -D)
-D - domínios a rastrear (limitado a esses domínios)
O maior problema é que a maioria das páginas que o Blogger retorna não tem um cabeçalho HTTP Last-modified na resposta, portanto, ele baixa novamente os arquivos inalterados e registra a seguinte mensagem:
"Falta o cabeçalho da última modificação - os carimbos de hora estão desativados."
Se eu pudesse descobrir como sufocar esse comportamento, ficaria feliz, porque é isso que o torna lento e também meu backup local tem que lidar com esses arquivos todas as noites porque acha que eles mudaram (quando não o fizeram) t).