modelos de raspador de tela para vários sites

1

Estou procurando especificamente uma maneira conveniente de arquivar localmente postagens deste e de outros sites semelhantes. Eu gostaria de separar a pergunta em si das respostas, ou talvez cortar a questão e armazená-la, mantendo o título da página. Obviamente, não preciso armazenar o menu ou os vários outros cromo de interface do site.

A melhor maneira de fazer isso parece ser associar um modelo XSLT a uma correspondência na URL e usar esse modelo para puxar as várias informações relevantes e formatá-las.

Minha pergunta em duas partes:

  • Existe uma ferramenta criada especificamente para essa tarefa? I.E. algo que usa um URL e o verifica em um mapa de expressões de correspondência de caminho para modelos e gera o resultado da aplicação do modelo a esse recurso?

    xmlto parece estar na maior parte do caminho, e provavelmente poderia ser chamado de um script que faz o padrão correspondência, mas algo já integrado seria mais conveniente.

  • Esse mapa URL_pattern-to-XSLT_template está disponível publicamente em algum lugar?

Questão 2.5:   É legal fazer isso com sites como este que possuem licenças públicas em seu conteúdo?

    
por intuited 21.07.2010 / 22:00

1 resposta

0

Resposta à pergunta 2.5:

É legal se você não distribuir ou publicar de qualquer forma. E se você fizer isso, você deve se referir à página original. A maioria dos sites mantém uma licença com base nas contribuições dos usuários licenciadas sob o cc-wiki com a atribuição necessária.

    
por 21.07.2010 / 23:33