Por que meu VPS está falhando (e como posso descobrir por mim mesmo)?

2

Editar : Embora isso pareça ser devido a uma queda de energia nas instalações da Linode em Fremont, eu ainda tive um problema com isso no passado. Qualquer ajuda seria apreciada.

Eu quero que você me ensine a pescar.

Sim, estou perguntando "Por que meu VPS está falhando?" Tenho certeza de que, se eu der acesso root ao meu servidor, você poderá descobrir em 2 minutos. Tenho certeza que você poderia me dizer para postar meus logs de erro, e eu iria caçá-los sem pensar muito. Mas não é isso que eu quero.

Eu quero que você me ensine a pescar.

Estou me deparando com um problema que não tem nenhuma causa básica aparente para mim. Veja meus gráficos Linode para ver o que quero dizer. A falha está ocorrendo no momento em que o tráfego de rede e o E / S de disco está no mínimo.

Quais são os primeiros lugares mais comuns e mais básicos que eu deveria procurar quando isso acontece, e o que eu deveria estar procurando?

Como posso ser alertado quando isso acontece (por isso não perco oito horas enquanto o servidor está inativo)?

    
por Josh Smith 21.11.2010 / 06:05

1 resposta

4

Se todo o seu servidor está falhando devido a eventos não relacionados ao servidor, eu iria com um provedor melhor. O fato de uma queda de energia ter causado a queda das máquinas indica que eles não têm nenhum provedor de backup - o que é preocupante, especialmente porque parece que eles não o alertaram até bem depois do fato. Estou surpreso, pois a Linode tem uma reputação de ser bastante confiável.

What are the first, most common, most basic places I should look when this happens, and what should I be looking for?

De que tipo de coisas você está falando? /var/log/* ou similar são ótimos lugares para iniciar a depuração geral quando você não sabe o que aconteceu. Infelizmente, não há nenhuma falha real para falhas desconhecidas no servidor. Você pode querer investigar a ativação de logs mais detalhados em muitos de seus serviços, embora seja avisado antecipadamente - isso pode fazer com que seus arquivos de log se propaguem!

How can I be alerted when this happens (so I don't miss it for 8 hours while the server's down)?

Para isso, eu realmente encontrei a solução mais fácil para simplesmente ser serviços externos. Para os sites da empresa voltados para a frente, usamos utilitários como o Pingdom , bem como várias ferramentas hospedadas internamente, como Nagios e Ganglia . Atacar isso em todas as frentes é a melhor aposta - ter várias fontes para verificar seu tempo de atividade, juntamente com uma variedade de localidades geográficas, é a prática padrão para monitoramento.

Lembre-se, por mais tentador que seja manter suas próprias versões, ter algo que esteja fora de sua rede e controle e tenha múltiplos servidores em todo o país e / ou mundo, lhe dará um retorno muito melhor. Além disso, a maioria desses serviços não custa nada.

Espero que isso ajude ou, pelo menos, você fique no caminho certo!

    
por 21.11.2010 / 16:57

Tags