Nós temos um servidor rodando o Ubuntu 16.04 que nós rodamos com muitos experimentos, com 4 xeons e 2 controladores RAID (cada um preenchido com 1TB SSDs). Nós executamos trabalhos usando todos os 64 núcleos por meses sem problemas. Estamos usando há mais de um ano sem qualquer problema até que tentamos uma nova carga de trabalho.
Ao executar uma grande quantidade de E / S de disco (centenas de GB para TB) em um curto período de tempo, o servidor faz uma reinicialização silenciosa. Não podemos encontrar a reinicialização em nenhum registro. A execução da "última reinicialização" nem reconhece que ocorreu uma reinicialização, mas a verificação do tempo de atividade mostrará que foi reiniciada recentemente.
O IO do Heavy Disk causará consistentemente as reinicializações silenciosas. Nós tentamos reconstruir a partição raid. Nós substituímos 1 unidade que parecia um pouco estranho em comparação com os outros (mas ainda parecia funcionar). E atualizado de 14.04 para 16.04. Também atualizamos o firmware nos controladores RAID e SSDs, mas isso não ajudou.
As reinicializações ainda acontecem e não temos certeza de como descobrir o porquê. Nada parece estar registrando um problema, e eu estava esperando que alguém aqui tenha visto isso antes ou saiba mais precisley onde procurar outro que não seja syslog e dmesg (o último dos quais está vazio).