De man wget
:
-R rejlist --reject rejlist
Specify comma-separated lists of file name suffixes or patterns to
accept or reject.
Esta opção rejeitará apenas arquivos que correspondam ao padrão.
Estritamente falando, no seu URL page
é um parâmetro de solicitação, não a última parte do caminho (por exemplo, nome do arquivo).
Você pode querer despejar todos os URLs que foram encontrados (por exemplo, grep o log para todos os URLs baixados), remover os URLs que não satisfazem (com grep -v, por exemplo) e finalmente fazer o wget recuperar os URLs restantes. Por exemplo:
# dump the whole website
wget ... -P dump -o wget.log ...
# extract URLs from the log file
cat wget.log | grep http | tr -s " " "2" | grep http >urls
# excludes URLs with the word page anywhere in it
cat urls | grep -v page >urls
# delete previous dump, since it probably contains unwanted files
rm -rf dump
# Fetch URLs
cat urls | xargs wget -x
Você pode adicionar outras opções do wget (por exemplo, --no-check-certificate) de acordo com suas necessidades.