Antes de começar a questão, quero dizer que um pergunta semelhante me ajudou a superar o login inicial. O meu problema é o indicado abaixo.
Há um site que estou tentando espelhar. É algo que eu tenho uma conta para. Estou usando o wget como minha ferramenta de escolha. Eu tentei enrolar, mas descobri que, embora seja fácil enviar os dados do post com ele, o wget está melhor equipado para a tarefa em questão.
O site tem uma página de login inicial para a qual ele redireciona. Depois disso, você tem acesso a tudo no site. Logins fazem timeout depois de tanto tempo, mas é isso.
Com os comandos wget abaixo, consegui salvar com êxito meus cookies, carregá-los e fazer o download de todas as pastas filhas. Meu problema, no entanto, é que cada filho tem um index.html da mesma página de login. É como se o cookie funcionasse bem para a pasta raiz, mas nada abaixo dele.
Os comandos que usei foram:
wget http://site.here.com/users/login --save-cookies cookies.txt --post-data '[email protected]&password=*****&remember_me=1' --keep-session-cookies --delete-after
wget http://site.here.com/ --load-cookies cookies.txt --keep-session-cookies -r -np
Note que as variáveis / ids pós-dados são diferentes e que eu tive que baixar a página de login para ver o que eles eram.
Em segundo lugar, note que se eu não colocasse o valor remember_me como 1, o cookie.txt seria diferente.
Sem remember_me = 1
.here.com TRUE / FALSE numbershere CAKEPHP garbagehere
Com remember_me = 1
site.here.com FALSE / FALSE numbershere CakeCookie[rememberme] garbage
.here.com TRUE / FALSE numbershere CAKEPHP garbagehere
O resultado é que o primeiro só faria o download da página de login e o último acessaria todas as pastas filhas, somente com filhos que continham índice de login e é isso.
Estou meio que preso e minha experiência com wget e http é muito limitada. O que você faria para superar isso? Gerar um cookie para cada criança? Como você automatizaria isso em vez de criar manualmente um arquivo de cookie para cada criança?
P.S: Estou usando o Linux se isso refletir as respostas que eu recebo.
Tags authentication wget http