modelos de raspador de tela para vários sites

1

Estou procurando especificamente uma maneira conveniente de arquivar localmente postagens deste e de outros sites similares. Eu gostaria de separar a pergunta das respostas, ou talvez cortá-la e armazená-la, mantendo o título da página. Obviamente, não preciso armazenar o menu nem os vários outros chrome da interface do site.

A melhor maneira de fazer isso seria associar um modelo XSLT a uma correspondência na URL e usá-lo para obter as várias informações relevantes e formatá-las.

Minha pergunta em duas partes:

  • Existe uma ferramenta criada especificamente para esta tarefa? Ou seja, algo que pega uma URL e a compara com um mapa de expressões correspondentes a caminhos para modelos e gera o resultado da aplicação do modelo a esse recurso?

    O xmlto parece estar na maior parte do caminho e provavelmente poderia ser chamado de um script que faz a correspondência de padrões, mas algo já integrado seria mais conveniente.

  • Esse mapa URL_pattern-to-XSLT_template está disponível publicamente em algum lugar?

Pergunta 2.5: É legal fazer isso com sites como este que possuem licenças públicas em seu conteúdo?

intuído
fonte

Respostas:

0

Resposta à pergunta 2.5:

É legal se você não o distribuir ou publicar de qualquer forma. E se o fizer, você deve consultar a página original. A maioria dos sites mantém uma licença com base nas contribuições do usuário licenciadas sob o cc-wiki com a atribuição necessária.

BloodPhilia
fonte