Grava URLs em um arquivo de texto que corresponda a um padrão

0

Estou tentando analisar o site nickjr.com, especificamente " link " URL para episódios completos só.

O nickjr.com tem seu site definido pelo título do programa, depois por jogos ou vídeos, pelo menos com patrulha de paw, de modo que o URL permanecerá o mesmo até que eu realmente clique para reproduzir um vídeo. Existem vários vídeos no site, mas os episódios completos têm a palavra "episódio completo" no URL.

Exemplo que não é um episódio completo: link

Exemplo disso é um episódio completo: link

Minha idéia é usar o youtube-dl, que funciona no site deles (testado), para baixar episódios, mas eu não quero baixar todos os seus episódios porque alguns não são episódios completos. Então, o que estou fazendo agora é ir para cada vídeo e ter que copiar o URL, depois copiá-lo para o youtube-dl. Funciona, mas o site nickjrs é uma droga tentando navegar.

Eu sei que existem web spiders, mas não consegui encontrar exatamente o que estou procurando e isso não fazia muito sentido. Mas meu plano seria pesquisar o site e usar regex no URL, mas apenas para escrever as URLs que correspondem à sequência de episódios completos em um arquivo de texto que eu poderia importar para o youtube-dl.

Então, eu realmente preciso de ajuda para analisar o site apenas para episódios completos, que podem ser salvos em um arquivo de texto.

Além disso, eu preferiria que o programa fosse compatível com o Ubuntu 16.04, mas também posso usar o Windows 10, se necessário.

    
por Christopher Johnson 14.08.2017 / 07:18

1 resposta

1

Se você usa o Chrome, pode pressionar F12 para exibir as ferramentas do desenvolvedor e, em seguida, executar o pequeno snippet a seguir no console para gravar a lista de links:

$("a.route").each(function (i, a) {if (a.href.match(/full-episode/)) console.log(a.href)})

Pode funcionar em outros navegadores também, mas eu só testei no Chrome ..

    
por 14.08.2017 / 11:55