Dezenas de reinicializações espontâneas

0

Estou trabalhando em um sistema baseado no SUSE Linux que funciona 24 horas por dia, 7 dias por semana e faz isso há cerca de três anos, embora eu não possa dizer que ele não tenha sido reinicializado naquele momento. No dia 9 de junho, aparentemente, houve algum tipo de desligamento do site, mas não sei como esse desligamento foi feito.
Desde então, houve incontáveis reinicializações instantâneas.

A falha ocorreu em praticamente todas as situações de teste imagináveis, por ex. aplicações do usuário em execução ou não, arquivando dados ou não, gravando novos dados ou não, rodando fsck após 20 ou mais travamentos ou simplesmente não fazendo nada.

  • RAM foi substituída.

  • Uma ventoinha de resfriamento no dissipador de calor da CPU foi substituída por ser muito barulhenta (embora haja uma ventoinha maior soprando a apenas 20 mm de distância).

  • A fonte de alimentação foi substituída e o fio verde rígido aterrado para evitar que seja desligado.

Isso parece ter o efeito de que as reinicializações são um pouco menos frequentes.

Aparentemente, embora eu não tenha feito isso, o fsck [provavelmente] foi executado [250GB drive possui partição de dados de cerca de 220GB], mas não sei se todas as partições foram verificadas. Mas aparentemente tem funcionado continuamente por dois dias.

Alguém pode sugerir que tipos de problemas podem fazer com que o Linux morra e reinicie instantaneamente?

    
por Steve 19.06.2013 / 07:54

1 resposta

0

Isso soa como um problema para mim. Pode ser temperatura, PSU ou mobo.

Você pode verificar os registros /var/log/* ou a saída do comando dmesg para dicas

RAM has been replaced. A tired cooling fan on CPU heatsink replaced as quite noisy although there is a bigger fan blowing across it only about 20 mm away Power supply replaced and the green wire hard grounded to prevent it shutting down, but this just meant the reboots are a little less delayed.

Eu verifico com lm-sensors ou dentro de " / proc / acpi / thermal_zone " (se aplicável a você) por qualquer sinal de superaquecimento.

    
por 19.06.2013 / 08:31