Que tal wget
?
Três exemplos: um para uma página não existente, um para uma página existente que você não tem permissão para baixar e um que funciona.
wget link
--2014-05-09 22:06:20-- https://askubuntu.com/testfor404
Resolving askubuntu.com (askubuntu.com)... 198.252.206.24
Connecting to askubuntu.com (askubuntu.com)|198.252.206.24|:80... connected.
HTTP request sent, awaiting response... 404 Not Found
2014-05-09 22:06:21 ERROR 404: Not Found.
wget link
--2014-05-09 22:07:11-- https://askubuntu.com/reputation
Resolving askubuntu.com (askubuntu.com)... 198.252.206.24
Connecting to askubuntu.com (askubuntu.com)|198.252.206.24|:80... connected.
HTTP request sent, awaiting response... 403 Forbidden
2014-05-09 22:07:11 ERROR 403: Forbidden.
wget link
--2014-05-09 22:07:36-- https://askubuntu.com/
Resolving askubuntu.com (askubuntu.com)... 198.252.206.24
Connecting to askubuntu.com (askubuntu.com)|198.252.206.24|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 69629 (68K) [text/html]
Saving to: ‘index.html’
100%[======================================>] 69.629 257KB/s in 0,3s
2014-05-09 22:07:36 (257 KB/s) - ‘index.html’ saved [69629/69629]
Esse comando pode ser expandido para mostrar "true" ou "false" caso a saída mostre "ERROR 404: Not Found".
A opção --delete-after
excluirá o index.html após baixá-lo. --spider
flag irá verificar o cabeçalho / status da página sem fazer o download.