Removendo e reformatando tags HTML específicas do conteúdo

0

Atualmente, estou trabalhando em um estudo envolvendo conteúdo do Stack Exchange e tentando encontrar uma maneira eficiente de trazer o conteúdo para meus CAQDAS. O CAQDAS que estou usando é DeDoose.

O meu problema é que o suporte para HTML é bastante fraco, não mantém a formatação, por isso é uma bagunça. Eu tentei várias opções como Impressão como PDF (mas o suporte a PDF é muito ruim também). Então, estou procurando transformá-lo em rich text.

Eu tenho milhares de páginas para tratar. Eu verifiquei uma extensão do Chrome chamada ReaderView. Ele faz um bom trabalho, mas remove algumas coisas que eu preciso, como formatação e informações do usuário. Atualmente, a melhor opção que posso imaginar com minhas habilidades é copiar e colar o HTML de cada página no InDesign e criar um script usando o GREP para me livrar das coisas que não preciso.

Meu aplicativo de sonho seria um editor de HTML, onde posso desmarcar todas as coisas HTML / CSS que não quero e exportar como RTF ou algo assim ...

Algum de vocês sabe de uma maneira melhor de fazer isso?

Isso parece ser uma boa pista mas eu não sou especialista em Python ...

    
por Emilie 29.07.2017 / 00:36

1 resposta

1

Bem, acabei resolvendo minha resposta, embora essa pergunta tenha me dado o distintivo de capim-de-barriga ... não sei se isso é bom!

Consegui o que queria usando a Selenium API, extraindo e analisando diferentes seletores para HTML / texto, dependendo do que eu precisava.

    
por 05.08.2017 / 03:03