Como faço para que o wget corresponda a nomes de domínio exatos?

1

Estou usando o seguinte comando para espelhar um site:

wget -r -p -E -N -l 10 -k -nH -H -Dfoo.com,www.foo.com foo.com

O problema que estou tendo é que em algum lugar no foo.com existem links para domínios terminados em foo.com (newfoo.com por exemplo) e wget também está espelhando esse site. É possível limitar os domínios a uma correspondência exata? Não quero rastrear nenhum subdomínio diferente de www.

    
por Luke 01.07.2014 / 01:10

1 resposta

1

Infelizmente, o wget faz uma correspondência suave em domínios aceitos ao rastrear um site. Por exemplo, todos os domínios a seguir seriam correspondentes para foo.com:

  • barfoo.com
  • bar.foo.com
  • anything.can.gohere.foo.com

Na verdade, criei um patch para o wget 1.15 para adicionar uma opção para ativar esse comportamento de correspondência estrita. Usando esse patch, o domínio inteiro deve corresponder exatamente. Não afeta outras listas de domínios, como domínios excluídos, etc.

    
por 01.07.2014 / 21:38

Tags