Salvar partes de um site como texto puro

1

Espero poder perguntar isso aqui.

Eu preciso extrair o conteúdo de um site existente (responsável pelo dono do site) para documentos do Word (ou texto). Para isso, eu só preciso do conteúdo de um DIV com um determinado ID.

Existe alguma ferramenta para o Windows que pode fazer isso para mim (idealmente recursivamente)? Eu sei wget e Web Site Downloader, mas ambos podem "apenas" salvar o HTML completo.

    
por Martin 23.11.2009 / 15:41

3 respostas

1

Sua melhor aposta seria criar seu próprio conjunto de ferramentas para isso:

  1. Use uma ferramenta como wget para baixar recursivamente os arquivos HTML dos quais o conteúdo é necessário. Preste atenção especial às opções -r para especificar o download recursivo e -l para especificar a profundidade da recursão. wget produz texto simples.
  2. Use uma ferramenta como grep para filtrar tudo, exceto a (s) linha (s) contendo o <DIV> necessário. Preste especial atenção às opções -r para especificar a pesquisa recursiva e -e para especificar uma expressão regular. Pipe a saída de grep para um arquivo de sua escolha. grep produz texto simples se for alimentado com texto simples.

Dica: pode ser mais simples usar grep várias vezes para filtrar as coisas em partes menores. Isso depende inteiramente de como todas as páginas são semelhantes e de como o código é limpo.

Editar: Então, novamente, talvez usar uma regex não é uma boa maneira de analisar HTML .

    
por 23.11.2009 / 15:53
0

Eu não acho que algo assim já exista. Eu acho que sua melhor opção seria codificar algo para você mesmo.

BeautifulSoup é uma ... bela biblioteca Python que permitirá que você faça isso com um código muito pequeno. Para obter mais ajuda, sugiro que você vá para o estouro de pilha

    
por 23.11.2009 / 15:46
0

Eu sou preguiçoso. No tempo que você levaria para pesquisar e configurar uma ferramenta de propósito especial, com certeza você pode apenas destacar o texto desejado com um mouse, copiá-lo e colá-lo em um editor de texto?

    
por 23.11.2009 / 15:58