Algum tipo de mecanismo de economia de energia, talvez no modo de suspensão. Talvez desative os módulos ACPI em /etc/modules.conf para testar a hipótese.
Eu tenho um servidor Ubuntu Godaddy que uso para hospedar e-mails e aplicativos web. Começou a ter problemas há alguns meses atrás. Isso trancaria e pararia de responder a qualquer coisa. Eu não poderia ssh para ele, então eu teria godaddy ciclo de energia do servidor.
Eu nunca vi nada que parecesse suspeito nos registros do var (embora eu não seja especialista em lê-los). Um fsck não apresentou problemas. Godaddy substituiu o ram, mas não encontrou problemas de hardware. Eu comecei a registrar a saída de "top" para um arquivo de log e descobri que até isso pára de funcionar quando o servidor congela.
Agora, aqui está a parte maluca: ficou tão ruim que iria cair a cada poucas horas, mas depois parou de descer. Eu finalmente percebi que tinha deixado um terminal ssh logado na parte superior da máquina. Isso parecia improvável de ser uma razão, mas depois que o servidor estava sem problemas por uma semana inteira (lembre-se, ele estava caindo depois de apenas algumas horas), eu desconectei da sessão ssh. Eis que, dentro de algumas horas, o servidor congelou novamente!
Eu tive que religar novamente e depois deixei outra sessão ssh aberta com o topo. Está sem problemas há 8 dias.
Eu falei aos outros sobre isso e eles quase não acreditam em mim. Eu simplesmente não consigo imaginar o que está acontecendo. Eu não sei mais o que tentar além de apenas pegar um novo servidor e reinstalar tudo.
Alguém tem alguma idéia sobre o que eu posso procurar para determinar qual é a causa? É possível que haja algum tipo de exploração no servidor que só é executado se todos forem desconectados do sistema?
EDITAR: O gerenciamento de energia descontrolado parece plausível, então modifiquei o /boot/grub/menu.lst para inicializar com acpi = off e apm = off. Parece que evitou que o kacpid e o kacpid_notify estivessem na lista de processos, então eu suponho que fiz isso corretamente. Eu desconectei todas as minhas sessões do servidor. Eu vou verificar mais tarde hoje à noite para ver se ainda está em alta. Se cair, tentarei a ideia do processo de ping.
EDITAR: Desceu novamente. Isso durou cerca de um dia. Eu os reiniciei, então agora vou tentar rodar "nohup ping -i 5 google.com &" e depois desconecte. Se cair de novo, voltarei. Espero que alguém tenha mais algumas ideias.
EDITAR: Hã. Não diminuiu em 5 dias. Eu só estou logado brevemente. O "nohup ping -i 5 google.com &" parece fazer o trabalho. Alguém tem alguma ideia do porquê? Eu não estou exatamente empolgado em deixar meu computador fazendo ping no google por 5 segundos indefinidamente, mas se eu não conseguir descobrir mais nada, provavelmente adicionarei um script de inicialização que execute isso quando o servidor for reinicializado.
Algum tipo de mecanismo de economia de energia, talvez no modo de suspensão. Talvez desative os módulos ACPI em /etc/modules.conf para testar a hipótese.