A execução com -d
mostra o que está acontecendo:
Location: http://blogs.gamefilia.com/lord-areg [following]
....
Deciding whether to enqueue "http://blogs.gamefilia.com/lord-areg".
Going to "" would escape "lord-areg" with no_parent on.
Decided NOT to load it.
Redirection "http://blogs.gamefilia.com/lord-areg" failed the test.
A página redirecionada estava fora da área especificada, por isso, apesar de ter sido recuperada, seu conteúdo não é seguido durante a recursão.
Remover o /
final significa que não há redirecionamento, mas, como você encontrou, também significa que o wget não trata lord-areg
como um diretório e usa o /
anterior, então o site inteiro corresponde a:
Note that, for HTTP (and HTTPS), the trailing slash is very important to ‘--no-parent’. HTTP has no concept of a “directory”—Wget relies on you to indicate what’s a directory and what isn’t. In ‘http://foo/bar/’, Wget will consider ‘bar’ to be a directory, while in ‘http://foo/bar’ (no trailing slash), ‘bar’ will be considered a filename (so ‘--no-parent’ would be meaningless, as its parent is ‘/’).
( 4.3 Limites Baseados no Diretório )
Então você precisa restringir os resultados de alguma outra maneira. -I lord-areg
quase funciona, mas irá pular as páginas do formulário /lord-areg?page=1
. Para corresponder a esses também, descreva os URLs necessários em mais detalhes:
--accept-regex '^http:\/\/blogs\.gamefilia\.com\/lord-areg[?/]'