Como wget site com a mesma página e nomes de conteúdo?

3

Estou tentando espelhar um site em que ele tenha uma página:

http://www.site.com/news

e conteúdo:

http://www.site.com/news/36-news/news-one
http://www.site.com/news/37-news/news-two
http://www.site.com/news/38-news/another-news-here

Isso é o que estou usando

wget -m -Dsite.com -e robots=off -r -q -R gif,png,jpg,jpeg,GIF,PNG,JPG,JPEG \
    -t 10 http://www.site.com &

Quando o wget é executado, ele cria um arquivo HTML com o nome news .

Não consigo baixar o conteúdo porque o arquivo com o nome news já existe (estou executando o Ubuntu: os diretórios não podem ter o mesmo nome que os arquivos)

Abaixo está a mensagem que apareceu ao executar wget sem -q

www.site.com/news/36-news: Not a directory
www.site.com/news/36-news/news-one: Not a directory

    
por Najib-botak Chin 01.08.2011 / 03:27

1 resposta

4

Você pode tentar --no-clobber . No entanto, parece-me que você provavelmente seria mais adequado para algo um pouco mais completo, como httrack . Aqui está o manual para as opções de linha de comando: link

Você pode prefixar todos os seus diretórios assim:

httrack "http://www.site.com/news" -O /tmp/site -N "my%p/%n.%t"

Assim, o comando completo, semelhante ao seu, pode ser algo como:

httrack "http://www.site.com/news" -O /tmp/site -N "my%p/%n.%t" --retries=10 --ext-depth=0 --robots=0 +*.gif +*.png +*.jpg +*.jpeg +*.GIF +*.PNG +*.JPG +*.JPEG
    
por 01.08.2011 / 04:01