diagnostics para um servidor que continua desligando

2

Eu tenho uma caixa supermicro de 1U com alguns anos e sem garantia. Recentemente, ele começou a desligar aleatoriamente. Ele permanecerá em qualquer lugar, de algumas horas a uma semana, e depois parará de responder. O console IPMI mostra-o como ativado, mas não responde totalmente.

Eu gostaria muito de consertar essa máquina, já que os proprietários têm restrições orçamentárias. Tem o CentOS 7 atualmente.

O que eu procurei:

  • logs da IPMI - vazios
  • Logs do sistema - nada relevante
  • SAR - nada de interessante
  • Sensores de hardware - os ventiladores estão ligados, a temperatura da CPU é nominal

O que eu tentei:

  • supermicro diagnósticos - a imagem (UEFI) não inicializa corretamente neste sistema
  • memtest + - correu por 24 horas sem nenhum incidente

Dado que ele tem fontes de alimentação redundantes, estou achando que esse não é o problema. Isso deixa CPU e mainboard.

  • Que outros testes posso executar?
  • Em quais outras fontes de registro eu posso investigar?
  • O que mais pode estar falhando?

Editar:

Começou a máquina e deixou-a funcionar até parar (12 horas?). A janela do IPMI mostra que ela está presa na página de inicialização de todas as coisas.

Ele foi inicializado e executado. Isso me faz pensar que é uma questão principal da diretoria. Não há dispositivos USB conectados e está bem encaixado.

    
por ethrbunny 26.09.2018 / 17:33

3 respostas

2

Eu não descartaria completamente o PSU. Se eles são redundantes, você poderia tentar rodar com apenas um, depois o outro.

Você consegue a (s) CPU (s) de reposição? Xeons usados são bem baratos, e você ainda pode vendê-los depois. Se for um sistema com várias CPUs, tente remover todas, exceto uma.

O sistema tem um VRM separado e substituível para a CPU?

Poderia ser a mainboard, mas isso provavelmente significa que a máquina está morta.

    
por 27.09.2018 / 21:09
1

Use o processo de eliminação. Retire um componente de cada vez:

  1. Teste se ele falha sem cada chip de memória. Se não falhar, é o chip de memória que você tirou

  2. Se não for o RAM, substitua o disco rígido por um sobressalente temporário ou inicialize um USB ativo quando precisar verificar o driver do disco rígido. Se não desligar, então é o disco rígido

  3. Se as CPUs forem removíveis, você pode tentar executar sem cada uma

  4. Elimine o suprimento de energia da mesma forma

  5. Se as placas NIC forem removíveis, elimine as

  6. Se ainda é um problema depois de todos esses testes, provavelmente é uma placa-mãe frita.

por 03.10.2018 / 15:14
-1

Verifique o dmesg para pânicos do kernel, etc. O syslog também pode mostrar algumas dicas, supondo que ele esteja relacionado ao sistema operacional

    
por 28.09.2018 / 01:36

Tags