Como o título diz meu servidor Ubuntu 14.04 deixa de responder após um período de inatividade. Será uma caixa de proxy NGNX, mas ainda não terá tráfego de produção por razões óbvias. Ele durou cerca de um mês sem problema, enquanto eu estava esperando o equipamento de rede ser atualizado antes de enviar tráfego para ele.
Mas algumas semanas ele começou a não responder e tive que reiniciar a caixa via IPMI (não tenho acesso físico a ele). Após a reinicialização, investiguei os logs e notei vários "HANDLING MCE ERRO DE MEMÓRIA" nos logs do kern. Este processo continuou repetindo por vários dias. Eu tive um dos caras do servidor substituir o DIMMS e esse erro foi embora, mas o problema original ainda permanecia.
Em seguida, executei o MEMTEST por cerca de 60 horas sem erros. Em seguida, testei a CPU por 24 horas com o MPRIME, durante o teste, o servidor permaneceu ativo o tempo todo e não teve erros.
Portanto, parece que a memória e a CPU estão funcionando corretamente, mas quando a máquina fica ociosa por algum tempo ela não responde e eu tenho que reinicializá-la. Eu não acho que é um problema de configuração de energia, porque ficou por cerca de um mês antes disso.
Alguma idéia?
EDIT: Acabou por não ser capaz de resolver este problema, então apenas preso os HDD's em um sistema idêntico.
Tags troubleshooting ubuntu