Diagnosticar desligamentos não planejados

2

Eu tenho um problema com um servidor que está sendo desligado por algum motivo desconhecido. Eu verifico os logs toda vez que isso acontece e não consigo encontrar nada de especial interesse que sugira por que ele está caindo.

Alguém pode sugerir algo que eu deva fazer para ajudar a diagnosticar o problema?

    
por steve 03.03.2013 / 11:56

1 resposta

4

Soa como um problema de hardware.

Você adicionou alguma coisa ao sistema? Por exemplo. RAM, novo GPU, HDD, placas PCI?

Física:

  • Verifique todos os cabos.
  • Verifique a montagem da RAM.
  • Verifique a montagem de todos os PCIs.
  • Remontar CPU (se nada mais funcionar).
  • Verifique as fontes de energia, tanto externas como internas.

[Editar]: E como apontado por @vonbrand
Assegure o arrefecimento, etc. e faça uma limpeza, se necessário.

Se você não for, verifique o status em lm_sensors e por exemplo adicione um sistema de alarme para valores críticos. Aqui você também pode verificar o status do ventilador - e talvez as tensões. Se nenhuma tensão mostrada, você pode verificar se o BIOS informa isso. Em seguida, verifique os papéis no seu HW que os níveis estão corretos. Veja abaixo a verificação do voltímetro.

Atualize o BIOS.

Você diz:

[…] cannot find anything of particular interest which would suggest why its going down.

Mas existem outros dados em

/var/log/messages
/var/log/debug
/var/log/kern.log
...

que sugerem problemas com o sistema na inicialização etc?

Você tem mcelog em execução ( Exame de verificação de máquina )? Se não instalar,

Verifique o HDD S.M.A.R.T. dados usando smartmontools. Execute memtest, stresstest, etc.

Verifique dmesg durante a execução de testes.

Use um dos vários CDs de inicialização, por exemplo:

E faça testes neles que achar apropriados.

Se for um servidor do servidor - em um local de impedimento, verifique se não há zelador usando a tomada elétrica para recarregar o celular.

[Editar2]: PSU check.
Apenas uma nota extra no PSU check. Um teste offboard pode ser bom - neste caso, - se for um ATX -, você deve se lembrar de atalho Power on , (tipicamente verde), com ground, (tipicamente preto) , para fazer o PSU entrar no palco. (com um fio de reposição, clipe de papel, etc.)

Depois, você pode medir colocando um conector de voltímetro no terra (preto) e o outro nos coloridos. Então, se você ler um valor positivo fora de faixa de ± 5%, ou negativo fora de ± 10%, você estará com problemas. ( 4.1.4 Tolerâncias de Voltagem ). O 12V seria mais fácil para verificar qual deve estar na faixa de 11,40 a 12,60 volts. Em um ATX típico seria:

* Yellow: +12  V;  value ⊆ { 11.40 , …,  12.60 }
* Red   : + 5  V;  value ⊆ {  4.75 , …,   5.50 }
* Orange: + 3.3V;  value ⊆ {  3.135, …,   3.465}
* Brown : + 3.3V;  value ⊆ {  3.135, …,   3.465}
* Blue  : -12  V;  value ⊆ {-13.2  , …, -10.8  }

Verifique o papel do seu fornecedor de PSU ou da especificação mais geral e as especificações do seu Mother Board.

por 03.03.2013 / 14:07