Esta funcionou para mim :
- faça o download dos alertas do seu email em um diretório do Thunderbird;
- instale o plug-in ImportExportTools e exporte todo o diretório como HTML;
- vá para o diretório de exportação e execute:
find * -print0 | xargs -0 -I § bash -c 'NAME="§"; DATE="{{#time:j F Y| ${NAME:0:8} }}"; grep --text -Eo "ru=([^&]+)&" "§" | sed "s,ru=,;$DATE:,g" | sed "s,&,,g" ; ' | sort -ru
Eu usei ;$DATE:
como prefixo para cada URL porque isso é um wikitexto significativo e as funções do analisador permitem uma fácil tradução o formato "AAAAMMDD" usado pelos arquivos de exportação. Você pode substituir com qualquer coisa.
Uma versão mais inteligente pode enviar o URL para o Zotero ou o Citoid para obter uma citação adequada, ou talvez analisar o HTML original para extrair mais informações. O formato HTML parece ser diferente para alertas antes de 2014-01-18.
Testado com GNU findutils 4.5.12, bash 4.3.42.
TODO: faça o download dos links "veja mais artigos" e analise-os também. Em dias atarefados, os e-mails contêm apenas uma seleção aleatória das notícias "principais".