Servidor morrendo a cada poucos dias - como investigar

2

Eu tenho o servidor dedicado do Ubuntu 9.10 (não gerenciado) e ele começou a morrer há algumas semanas.

Antes de solicitar a inspeção de hardware, gostaria de confirmar que não há nenhum tipo de problema de software acontecendo no servidor.

O servidor não é gerenciado, por isso preciso fazer tudo sozinho.

O servidor está hospedando alguns sites do WP e um fórum do VBulettin.

Aqui estão minhas informações do php link

O servidor funcionou * sem falhas * por cerca de um ano, nesse meio tempo, sem um único reinício, e agora ele começou a cair de repente.

Sempre acontece aproximadamente no mesmo horário (4 a 6 horas da manhã, horário de verão central) quando temos mais visitantes on-line.

Mas coisa estranha é que isso nunca aconteceu antes, funcionou muito bem por um ano ou mais.

Então, minha pergunta é: como investigar?

Eu tenho cactos criados desde o primeiro dia - e não há atividade incomum que assim sempre. Ainda mais, toda vez que ele acontece, acontece na encosta abaixo do load e consultas do mysql chats (e todos os outros gráficos relacionados à carga)

O que eu não tinha era o número de soquetes, mas acrescentei isso hoje.

A coisa que mais me preocupa é que toda vez que eu pedi para reiniciar (aproximadamente 4 vezes nos últimos 7 dias), o cara do suporte me disse que estava pegando tela preta (então eu acho que não é o caso de carga ~ 50)

Quais arquivos de log eu devo assistir?

Quais entradas nesses arquivos eu devo procurar?

    
por kodisha 19.08.2011 / 18:23

3 respostas

1

Procure erros de memória e erros de disco rígido em / var / logs / messages para começar.

Este servidor está em um data center? Com alimentação elétrica adequada? A variação na eletricidade pode causar a falha de um servidor e também impedi-lo de inicializar se não houver energia suficiente disponível.

Você também pode testar seu hardware, especialmente sua Memória e < a href="http://www.cyberciti.biz/tips/linux-find-out-if-harddisk-failing.html"> HDD .

    
por 19.08.2011 / 20:00
1

Configure o monitoramento da temperatura da CPU, se ainda não tiver feito isso. Se o problema for superaquecimento, você poderá ver um aumento acentuado na temperatura imediatamente antes da falha.

/var/log/kern.log valeria a pena dar uma olhada. No entanto, se o sistema está falhando, pode ser que ele não consiga escrever nada quando realmente importa.

Se você puder acessar o console - ou talvez melhor, usar um console serial e deixar algo registrando tudo escrito nele (eu uso 'screen' para isso) - então você poderá ver o que o kernel diz quando cai.

    
por 20.08.2011 / 11:25
0

Isso "morre" quando não há nada para fazer por um tempo? Então a economia de energia pode ser o problema aqui. Tente desativá-lo completamente ou, pelo menos, impedir que ele troque uma CPU ou núcleo para o estado C-sleep.

Eu tenho um monte de servidores Dell que expõem os erros mais estranhos se o estado C estiver ativado na economia de energia do BIOS.

Você sabe que tipo de hardware está sendo usado (marca, modelo, CPU - provavelmente Intel)?

    
por 21.08.2011 / 22:09