Mesmo que os arquivos sejam denominados .asp
, eles são realmente arquivos HTML. Veja o conteúdo deles para confirmar isso, mas o uso da extensão .asp
é porque essa é a tecnologia usada para implementar esse site específico. Esse é o nome que o navegador usa quando faz o download dos arquivos e, portanto, o nome usado quando os arquivos são gravados no disco, mas ainda são HTML.
Você também pode confirmar o tipo do arquivo usando o comando file
:
$ file some.asp
Na sua pergunta anterior, onde você postulou como fazer o download de várias páginas do site w3school ( Possível fazer o download dessas páginas da web como um livro? . Você mostrou este comando:
$ wget -r -np -nH -p -k http://www.w3schools.com/sql/default.asp
Observe os resultados dos arquivos gerados por esse comando quando você o executou:
$ file ./sql/sql_func_count.asp
./sql/sql_func_count.asp: HTML document, ASCII text, with very long lines, with CRLF line terminators
Então esse é um bug com wget
, certo?
Não! Isso não é um bug, é apenas como wget
e curl
se comportam. Isso é parte do motivo pelo qual eu determinei que você usasse httrack
em seus outros Q & A vinculados acima. Se você observar os resultados que produz, os nomes dos arquivos serão todos .html
with httrack
. wget
e curl
estão respeitando os nomes dos arquivos dentro da URL, pois são os nomes dos arquivos reais que você baixou quando os acessou. URLs realmente não têm nenhum conceito de extensões, isso é um sistema operacional. URLs são apenas isso, localizadores de recursos universais.
As URLs são destinadas exclusivamente para encontrar conteúdo na internet, não para armazená-lo localmente, para consumo posterior. Quando você deseja fazer o download de conteúdo on-line para esse tipo de uso, você deseja usar uma ferramenta que possa realmente espelhar esse conteúdo localmente e torná-lo localmente navegável.
Ferramentas como httrack
violam essencialmente a consistência das URLs para permitir que esse conteúdo armazenado localmente seja navegável, off-line. wget
e curl
podem ser persuadidos a fazer isso, mas normalmente são muito mais trabalhosos e propensos a erros e, como regra geral, são desencorajados.
É melhor usar a ferramenta adequada para o trabalho. Para espelhar conteúdo on-line localmente, httrack
é a ferramenta apropriada!