Você também pode usar algo como nutch Eu só o usei para rastrear links internos em um site e indexá-los em < href="https://lucene.apache.org/solr/"> solr mas de acordo com este post também pode fazer links externos, dependendo do que você quer fazer com os resultados, pode ser um pouco exagerado.