Como obtenho o wget para baixar um arquivo cgi por trás do robots.txt?

1

Como exemplo - link .

Eu encontrei uma maneira de passar pelas restrições do robots.txt, mas, mesmo assim, ele apenas faz o download de um arquivo binário que é ilegível por qualquer coisa.

    
por InquilineKea 20.07.2012 / 02:18

3 respostas

1

wget --user-agent=Mozilla \
  "http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22"
    
por 20.07.2012 / 02:24
1

Do manual do wget em gnu.org

If you know what you are doing and really really wish to turn off the robot exclusion, set the robots variable to ‘off’ in your .wgetrc. You can achieve the same effect from the command line using the -e switch, e.g. ‘wget -e robots=off url...’.

    
por 20.07.2012 / 02:31
0

Após várias tentativas usando: --user-agent | robôs = off sem saída e verificando um dump hexadecimal da saída.

Eu tive sucesso - enviando a saída do arquivo para o formato HTML usando o exemplo abaixo

Tente isto:

wget --user-agent=Mozilla \ -e robots=off "http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22" -O -O cgi-converted-to-htmlfile.html

FYI o - user-agent = Mozilla \ -e robots = off está na mesma linha

opção -e robots = off    irá desativar honrando os servidores robots.txt

opção -O cgi-converted-to-htmlfile.html    irá gerar o arquivo como um formato de arquivo html para filename

cgi-converted-to-htmlfile.html

Boa sorte, Espero que seja o que você está procurando.

    
por 14.01.2017 / 05:06

Tags