Razões:
-
Páginas dinâmicas - às vezes, uma URL não fornece um arquivo, mas a saída de um programa que é executado no servidor. Este programa pode retornar resultados diferentes a cada vez.
-
Javascript - os URLs exatos que uma página acessa não serão conhecidos, a menos que todo JavaScript seja executado e, dependendo dos eventos que o disparam, é possível que algum JavaScript em uma página nunca seja executado ou só receba executado em determinados momentos, etc.
-
Filtragem baseada em IP, etc. - às vezes, um servidor da Web pode fornecer dados diferentes para o mesmo URL com base em alguns atributos, como seu IP, etc.
Sites puramente estáticos, sem processamento do lado do servidor, devem sempre ser baixados com uma ferramenta como wget
, mas esses tipos de sites são cada vez mais raros.