Se todo o seu servidor está falhando devido a eventos não relacionados ao servidor, eu iria com um provedor melhor. O fato de uma queda de energia ter causado a queda das máquinas indica que eles não têm nenhum provedor de backup - o que é preocupante, especialmente porque parece que eles não o alertaram até bem depois do fato. Estou surpreso, pois a Linode tem uma reputação de ser bastante confiável.
What are the first, most common, most basic places I should look when this happens, and what should I be looking for?
De que tipo de coisas você está falando? /var/log/*
ou similar são ótimos lugares para iniciar a depuração geral quando você não sabe o que aconteceu. Infelizmente, não há nenhuma falha real para falhas desconhecidas no servidor. Você pode querer investigar a ativação de logs mais detalhados em muitos de seus serviços, embora seja avisado antecipadamente - isso pode fazer com que seus arquivos de log se propaguem!
How can I be alerted when this happens (so I don't miss it for 8 hours while the server's down)?
Para isso, eu realmente encontrei a solução mais fácil para simplesmente ser serviços externos. Para os sites da empresa voltados para a frente, usamos utilitários como o Pingdom , bem como várias ferramentas hospedadas internamente, como Nagios e Ganglia . Atacar isso em todas as frentes é a melhor aposta - ter várias fontes para verificar seu tempo de atividade, juntamente com uma variedade de localidades geográficas, é a prática padrão para monitoramento.
Lembre-se, por mais tentador que seja manter suas próprias versões, ter algo que esteja fora de sua rede e controle e tenha múltiplos servidores em todo o país e / ou mundo, lhe dará um retorno muito melhor. Além disso, a maioria desses serviços não custa nada.
Espero que isso ajude ou, pelo menos, você fique no caminho certo!