Eu finalmente fiz isso usando este script bash
:
#!/bin/bash
conffile="$@"
if [ ! -f "$@" ] || [ 3 -ne $(wc -l "$@" | grep -o '^[0-9]*') ]; then
echo "This script writes a list of new video ids into an output file."
echo "Argument must be a file containing three lines:"
echo " line 1: Feed url"
echo " line 2: Output file "
echo " line 3: Newest id from last program call. Leave empty for first run."
exit 1
fi
mapfile -t < "$conffile"
url="${MAPFILE[0]}"
outfile="${MAPFILE[1]}"
lastid="${MAPFILE[2]}"
echo "Processing $id:"
allids=$(wget -q -O- "$url" | sed 's,href,\nhref,g' | sed -n -e "s,^.*href='http://www.youtube.com/watch?v=\([A-Za-z0-9_-]*\).*$,,p")
for id in $allids; do
if [ "$lastid" == "$id" ]; then echo "No new items left." >&2; break; fi
echo "$id"
echo "Adding $id" >&2
done | tac >> "$outfile"
newlastid=$(echo $allids | grep -o "^[A-Za-z0-9_-]*")
echo "$url" > "$conffile"
echo "$outfile" >> "$conffile"
echo "$newlastid" >> "$conffile"
Ele lê o URL de feed, o arquivo de saída e o vídeo mais recente conhecido de um arquivo de configuração e, em seguida, extrai os IDs de vídeo do feed. Esses IDs são então comparados com o ID conhecido mais recente (o mais novo item de feed primeiro). Itens mais recentes que isso serão adicionados aos arquivos de saída (agora o item mais antigo primeiro).
Aqui está um exemplo de arquivo de configuração youtube_tedx.conf
:
http://gdata.youtube.com/feeds/api/users/tedxtalks/uploads
~/Documents/Movies/tedx/list.all
VxKMeE-gTQY
Qual seria usado chamando ./get_new_youtube.sh youtube_tedx.conf
.
O arquivo de saída ( list.all
) pode então ser processado, por exemplo, usando youtube-dl
com um comando como youtube-dl -tca list.all && rm list.all
.