A ferramenta certa para reverter a ordem de classificação de milhares de elementos no arquivo HTML [fechado]

5

Eu tenho um arquivo HTML contendo milhares de <div class='date'></div><ul>...</ul> de blocos de código, como abaixo:

<!DOCTYPE html>
<html>

    <head>
    </head>

    <body>

        <div class="date">Wed May 23 2018</div>
        <ul>
            <li>
                Do laundry
                <ul>
                    <li>
                        Get coins
                    </li>
                </ul>
            </li>
            <li>
                Wash the dishes
            </li>
        </ul>

        <div class='date'>Thu May 24 2018</div>
        <ul>
            <li>
                Solve the world's hunger problem
                <ul>
                    <li>
                        Don't tell anyone
                    </li>
                </ul>
            </li>
            <li>
                Get something to wear
            </li>
        </ul>

        <div class='date'>Fri May 25 2018</div>
        <ul>
            <li>
                Modify the website according to GDPR
            </li>
            <li>
                Watch YouTube
            </li>
        </ul>

    </body>

</html>

Cada <div> e o elemento <ul> correspondente são para uma determinada data. Os blocos de <div class='date'></div><ul>...</ul> são classificados em ordem crescente, ou seja, as datas mais recentes estão na parte inferior do arquivo. Eu pretendo fazê-los em ordem decrescente, para que as datas mais novas fiquem no topo do arquivo, assim:

<!DOCTYPE html>
<html>

    <head>
    </head>

    <body>

        <div class='date'>Fri May 25 2018</div>
        <ul>
            <li>
                Modify the website according to GDPR
            </li>
            <li>
                Watch YouTube
            </li>
        </ul>

        <div class='date'>Thu May 24 2018</div>
        <ul>
            <li>
                Solve the world's hunger problem
                <ul>
                    <li>
                        Don't tell anyone
                    </li>
                </ul>
            </li>
            <li>
                Get something to wear
            </li>
        </ul>

        <div class="date">Wed May 23 2018</div>
        <ul>
            <li>
                Do laundry
                <ul>
                    <li>
                        Get coins
                    </li>
                </ul>
            </li>
            <li>
                Wash the dishes
            </li>
        </ul>

    </body>

</html> 

Não sei qual é a ferramenta certa, é shell script? É awk ? É Python? Qualquer outra coisa que possa ser mais rápida e conveniente?

    
por user3405291 05.06.2018 / 17:39

1 resposta

4

Solução estendida Python :

Script

sort_html_by_date.py :

from bs4 import BeautifulSoup
from datetime import datetime

with open('input.html') as html_doc:    # replace with your actual html file name
    soup = BeautifulSoup(html_doc, 'lxml')
    divs = {}
    for div in soup.find_all('div', 'date'):
        divs[datetime.strptime(div.string, '%a %B %d %Y')] = \
            str(div) + '\n' + div.find_next_sibling('ul').prettify()

    soup.body.clear()
    for el in sorted(divs, reverse=True):
        soup.body.append(divs[el])

    print(soup.prettify(formatter=None))

Uso:

python sort_html_by_date.py

A saída:

 <!DOCTYPE html>
<html>
 <head>
 </head>
 <body>
  <div class="date">Fri May 25 2018</div>
<ul>
 <li>
  Modify the website according to GDPR
 </li>
 <li>
  Watch YouTube
 </li>
</ul>
  <div class="date">Thu May 24 2018</div>
<ul>
 <li>
  Solve the world's hunger problem
  <ul>
   <li>
    Don't tell anyone
   </li>
  </ul>
 </li>
 <li>
  Get something to wear
 </li>
</ul>
  <div class="date">Wed May 23 2018</div>
<ul>
 <li>
  Do laundry
  <ul>
   <li>
    Get coins
   </li>
  </ul>
 </li>
 <li>
  Wash the dishes
 </li>
</ul>
 </body>
</html>

Módulos usados:

beautifulsoup - link
datetime - link

    
por 05.06.2018 / 20:53