Obrigado a todos os comentadores. Eu acho que encontrei a resposta. Parece haver um erro de cronometragem em pelo menos a versão 2.6.32-30-server do kernel do Ubuntu. O bug às vezes (?) Mata as máquinas quando elas atingem um tempo de atividade de cerca de 200..210 dias. Na verdade, a parada não acontece imediatamente após o limite ser atingido, mas é acionada por alguma operação (no meu caso: apt-get install ...
).
NB: 200 dias é cerca de 2 ^ 32 vezes 1/250 segundo e 250 é o valor padrão para CONFIG_HZ.
Por enquanto, não encontrei dados sobre se o problema foi corrigido em kernels mais recentes. Eu sei que isso não parece afetar um kernel antigo (2.6.32-26-server). De todas essas informações, presumo que, se não for corrigido ainda, pode ser evitado por:
- inicialize as máquinas a cada 190 dias (uma boa idéia para atualizações do kernel de qualquer maneira)
- ajuste CONFIG_HZ para 100 e aumente a cada 497 dias. No entanto, isso pode ter efeitos colaterais inesperados, especialmente em ambientes virtuais. E isso não resolve o problema.
Aqui está um relatório de erros para o Ubuntu.