Não há nenhum livro sobre esse assunto que eu saiba, você obtém a solução de problemas da experiência ao fazer isso. Você se torna melhor na solução de problemas, pois entende como todos os diferentes componentes de um sistema funcionam juntos.
No exemplo que você deu de um site que não está carregando, eu vi o seguinte seguinte motivo para que isso aconteça (a lista não é exclusiva):
- DNS não resolve
- domínio expirado A partição
- ficou sem espaço
- o apache está tentando gravar em um arquivo de log que não existe ou não tem permissões
- servidor ficou sem RAM
- o apache não está em execução
- o memcached está inativo
- o mysql está inativo
- o mysql está ativo, mas sobrecarregado
- o apache está atingindo os MaxClients
- alguém mudou alguma coisa no código e quebrou
- alguém atualizou o CMS e quebrou
- permissões erradas em arquivos
- .htaccess foi alterado
- algum processo está sobrecarregando todos os recursos do servidor
- algum pacote no sistema que o site precisa foi alterado, atualizado ou removido
Acima, você pode verificar os problemas de expiração de domínios e DNS com o dig e whois. Quando você ssh para o servidor, parece que é lento e atrasado? Algo provavelmente está usando os recursos do sistema.
O apache está em execução? Você pode ver se está atingindo MaxClients com pgrep httpd | wc -l
, mas por que está atingindo MaxClients agora? O MySQL está em execução? Quantas consultas estão sendo executadas? Eles estão demorando muito?
Alguém alterou os arquivos? cd para os sites da web e execute find . -mtime -2
para ver o que mudou nos últimos dois dias. Procure no log de erros do seu site por problemas. Procure em / var / log / messages por problemas.
Como você pode ver, há muitos componentes que precisam trabalhar juntos para que um site seja carregado e você precisa entender como eles interagem e como eliminar cada um deles como um possível culpado para o seu problema. Saber como fazer isso vem da experiência. Você pode acabar perseguindo um arenque vermelho ao resolver um problema, mas é isso que lhe dá experiência para o próximo problema. Enquanto o arenque vermelho não foi a causa do seu problema, você pelo menos entende esse componente do sistema agora.