wget --user-agent=Mozilla \
"http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22"
Como exemplo - link .
Eu encontrei uma maneira de passar pelas restrições do robots.txt, mas, mesmo assim, ele apenas faz o download de um arquivo binário que é ilegível por qualquer coisa.
wget --user-agent=Mozilla \
"http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22"
Do manual do wget em gnu.org
If you know what you are doing and really really wish to turn off the robot exclusion, set the robots variable to ‘off’ in your .wgetrc. You can achieve the same effect from the command line using the -e switch, e.g. ‘wget -e robots=off url...’.
Após várias tentativas usando: --user-agent | robôs = off sem saída e verificando um dump hexadecimal da saída.
Eu tive sucesso - enviando a saída do arquivo para o formato HTML usando o exemplo abaixo
Tente isto:
wget --user-agent=Mozilla \ -e robots=off "http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22" -O -O cgi-converted-to-htmlfile.html
FYI o - user-agent = Mozilla \ -e robots = off está na mesma linha
opção -e robots = off irá desativar honrando os servidores robots.txt
opção -O cgi-converted-to-htmlfile.html irá gerar o arquivo como um formato de arquivo html para filename
cgi-converted-to-htmlfile.html
Boa sorte, Espero que seja o que você está procurando.
Tags wget