tradicionalmente, você faz o download das páginas HTML e procura alguma constante que preceda imediatamente seus dados. infelizmente sua pergunta não tem uma resposta universal, pois cada site é diferente. Eu escrevi scripts em python, Bash e até em C # que baixam uma página, pesquisam pela tag que eu quero e a extraem.
Dê uma olhada no código-fonte das páginas e encontre sua parte de dados (o firebug é muito útil para isso) e determine os delimitadores de início e fim do conteúdo que você deseja extrair.
aqui estão alguns scripts que as pessoas escreveram para raspar o XKCD.com link