A ferramenta certa para reverter a ordem de classificação de milhares de elementos no arquivo HTML


Eu tenho um arquivo HTML contendo milhares de <div class='date'></div><ul>...</ul> de blocos de código, como abaixo:

<!DOCTYPE html>



        <div class="date">Wed May 23 2018</div>
                Do laundry
                        Get coins
                Wash the dishes

        <div class='date'>Thu May 24 2018</div>
                Solve the world's hunger problem
                        Don't tell anyone
                Get something to wear

        <div class='date'>Fri May 25 2018</div>
                Modify the website according to GDPR
                Watch YouTube



Cada <div> e o elemento <ul> correspondente são para uma determinada data. Os blocos de <div class='date'></div><ul>...</ul> são classificados em ordem crescente, ou seja, as datas mais recentes estão na parte inferior do arquivo. Eu pretendo fazê-los em ordem decrescente, para que as datas mais novas fiquem no topo do arquivo, assim:

<!DOCTYPE html>



        <div class='date'>Fri May 25 2018</div>
                Modify the website according to GDPR
                Watch YouTube

        <div class='date'>Thu May 24 2018</div>
                Solve the world's hunger problem
                        Don't tell anyone
                Get something to wear

        <div class="date">Wed May 23 2018</div>
                Do laundry
                        Get coins
                Wash the dishes



Não sei qual é a ferramenta certa, é shell script? É awk ? É Python? Qualquer outra coisa que possa ser mais rápida e conveniente?

Solução estendida Python :


sort_html_by_date.py :

from bs4 import BeautifulSoup
from datetime import datetime

with open('input.html') as html_doc:    # replace with your actual html file name
    soup = BeautifulSoup(html_doc, 'lxml')
    divs = {}
    for div in soup.find_all('div', 'date'):
        divs[datetime.strptime(div.string, '%a %B %d %Y')] = \
            str(div) + '\n' + div.find_next_sibling('ul').prettify()

    for el in sorted(divs, reverse=True):



python sort_html_by_date.py

A saída:

 <!DOCTYPE html>
  <div class="date">Fri May 25 2018</div>
  Modify the website according to GDPR
  Watch YouTube
  <div class="date">Thu May 24 2018</div>
  Solve the world's hunger problem
    Don't tell anyone
  Get something to wear
  <div class="date">Wed May 23 2018</div>
  Do laundry
    Get coins
  Wash the dishes

Módulos usados:

beautifulsoup - link
datetime - link

