Eu tenho uma caixa SUSE com 8GB de RAM e sistema de arquivos Reiserfs que está funcionando sem problemas há mais de 4 anos sem problemas relacionados a o / se h / w. A caixa serve um par de sites (baseados em banco de dados) de baixo a moderado tráfego que incorre em baixo i / o, CPU e utilização de memória.
Recentemente, a máquina suspendeu 3 vezes no período de 10 dias. Isso aconteceu em tempos irregulares (por exemplo, nem sempre às 00:00 horas).
CPU, memória e HD são subutilizados e eu os validei onde também foram subutilizados no momento da parada, então os sites não são responsáveis.
Toda vez que a caixa trava, ela só pode responder ao ping, mas nenhum outro serviço é utilizável (ssh, www etc.). Eu então reinicio a caixa e tudo volta ao normal (até a próxima parada).
O que eu encontrei em /var/log/boot.msg (possivelmente acontecendo antes e durante a parada) em todos os 3 incidentes é Filesystem is NOT clean
e, em seguida, um Replaying journal
que parece fazer muito trabalho, mas nunca chega a 100%:
Reiserfs super block in block 16 on 0xfd03 of format 3.6 with standard journal
Blocks (total/free): 786432/540858 by 4096 bytes
Filesystem is NOT clean
Replaying journal: Trans replayed: mountid 39, transid 12424272, desc 7381, len 9, commit 7391, next trans offset 7374
Replaying journal: | | 0.1% 1 trans
Trans replayed: mountid 39, transid 12424273, desc 7392, len 9, commit 7402, next trans offset 7385
Trans replayed: mountid 39, transid 12424274, desc 7403, len 9, commit 7413, next trans offset 7396
Trans replayed: mountid 39, transid 12424275, desc 7414, len 9, commit 7424, next trans offset 7407
Replaying journal: | / 0.5% 4 trans
Trans replayed: mountid 39, transid 12424276, desc 7425, len 8, commit 7434, next trans offset 7417
Trans replayed: mountid 39, transid 12424277, desc 7435, len 9, commit 7445, next trans offset 7428
Trans replayed: mountid 39, transid 12424278, desc 7446, len 9, commit 7456, next trans offset 7439
Replaying journal: | - 1.0% 7 trans
Isso foi para 33% no primeiro incidente e para 58% no terceiro incidente.
O fim do sistema pode ser re-relacionado?
Alguma idéia de onde devo olhar a seguir?
muito obrigado