Estou tentando analisar o site nickjr.com, especificamente " link " URL para episódios completos só.
O nickjr.com tem seu site definido pelo título do programa, depois por jogos ou vídeos, pelo menos com patrulha de paw, de modo que o URL permanecerá o mesmo até que eu realmente clique para reproduzir um vídeo. Existem vários vídeos no site, mas os episódios completos têm a palavra "episódio completo" no URL.
Exemplo que não é um episódio completo: link
Exemplo disso é um episódio completo: link
Minha idéia é usar o youtube-dl, que funciona no site deles (testado), para baixar episódios, mas eu não quero baixar todos os seus episódios porque alguns não são episódios completos. Então, o que estou fazendo agora é ir para cada vídeo e ter que copiar o URL, depois copiá-lo para o youtube-dl. Funciona, mas o site nickjrs é uma droga tentando navegar.
Eu sei que existem web spiders, mas não consegui encontrar exatamente o que estou procurando e isso não fazia muito sentido. Mas meu plano seria pesquisar o site e usar regex no URL, mas apenas para escrever as URLs que correspondem à sequência de episódios completos em um arquivo de texto que eu poderia importar para o youtube-dl.
Então, eu realmente preciso de ajuda para analisar o site apenas para episódios completos, que podem ser salvos em um arquivo de texto.
Além disso, eu preferiria que o programa fosse compatível com o Ubuntu 16.04, mas também posso usar o Windows 10, se necessário.