Depois de mais de um ano, encontrei a resposta enterrada aqui .
Many websites use CDN(Content Delivery Network) to scale their website. Some of these are using the same URL on other domains. One of the major opensource players that I can demonstrate with is SourceForge. They have mirrors all over the world and they use a prefix domain to select the mirror like:
http://iweb.dl.sourceforge.net/project/assp/ASSP%20Installation/README.txt
http://cdnetworks-kr-2.dl.sourceforge.net/project/assp/ASSP%20Installation/README.txt
Portanto, este é um caso de desduplicação de URL simples. Esse cenário pode ser resolvido facilmente, armazenando todos os subdomínios sob uma "chave". É como um pseudo: todos os subdomínios de
dl.sourceforge.net
devem ser armazenados como:dl.sourceforge.net.some_internal_key
. e um exemplo de ruby para demonstrar código para isso:
url =
"http://iweb.dl.sourceforge.net/project/assp/ASSP%20Installation/README.txt"
key = "http://dl.sourceforge.net.squid.internal/" +
url.match(/.*\.dl\.sourceforge\.net\/(.*)/)[1]