Como encomendar páginas do mural de mensagens do IMDb?

1

Desde que o IMDb está planejando remover todos os Message Boards em 2 semanas, gostaria de buscar algumas páginas, mas wget não consegue fazê-lo.

Isso é o que eu fiz:

  1. Registrado como usuário na página link .
  2. Cookies exportados para o arquivo cookies.txt usando a extensão Chrome do cookies.txt .
  3. Execute wget como abaixo (como sugerido no arquivo cookies.txt ):

    $ wget -x --load-cookies cookies.txt --keep-session-cookies -e robots=off -A Mozilla http://www.imdb.com/boards/
    --2017-02-09 15:19:45--  http://www.imdb.com/boards/
    Resolving www.imdb.com... 54.239.23.73
    Connecting to www.imdb.com|54.239.23.73|:80... connected.
    HTTP request sent, awaiting response... 503 Service Temporarily Unavailable
    2017-02-09 15:19:46 ERROR 503: Service Temporarily Unavailable.
    

    Isso deve funcionar mesmo sem cookies.txt , pois a página é acessível para o público.

O que eu sinto falta?

    
por kenorb 09.02.2017 / 16:25

2 respostas

1

Parece que há algumas configurações extras que você precisa adicionar, incluindo o agente do usuário. Eu adicionei o seguinte ao meu arquivo ~/.wgetrc e parece fazer o trabalho. Embora ocasionalmente eu esteja recebendo um erro 500 ou 503. Gostaria de saber se isso pode ser um mecanismo de limitação / segurança.

header = Accept-Language: en-us,en;q=0.5
header = Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
header = Connection: keep-alive
user_agent = Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:53.0) Gecko/20100101 Firefox/53.0
referer = /
robots = off

A base dessa resposta foi estouro de pilha .

    
por 19.02.2017 / 13:10
1

Não é uma resposta direta à sua pergunta, mas há uma iniciativa comum para fazer backup do IMDB pela ArchiveTeam: Todos os interessados podem ajudar a fazer o download para um arquivo comum que eventualmente acaba em archive.org (veja a coleção archiveteam ).

As instruções são fornecidas. Basicamente, você pode executar um dispositivo VirtualBox / VMWare chamado ArchiveTeam Warrior , mas eu decidi ir com os scripts Linux.

    
por 10.02.2017 / 10:35