A caixa SUSE trava possivelmente devido ao problema de partição do Reiserfs

1

Eu tenho uma caixa SUSE com 8GB de RAM e sistema de arquivos Reiserfs que está funcionando sem problemas há mais de 4 anos sem problemas relacionados a o / se h / w. A caixa serve um par de sites (baseados em banco de dados) de baixo a moderado tráfego que incorre em baixo i / o, CPU e utilização de memória.

Recentemente, a máquina suspendeu 3 vezes no período de 10 dias. Isso aconteceu em tempos irregulares (por exemplo, nem sempre às 00:00 horas). CPU, memória e HD são subutilizados e eu os validei onde também foram subutilizados no momento da parada, então os sites não são responsáveis.

Toda vez que a caixa trava, ela só pode responder ao ping, mas nenhum outro serviço é utilizável (ssh, www etc.). Eu então reinicio a caixa e tudo volta ao normal (até a próxima parada).

O que eu encontrei em /var/log/boot.msg (possivelmente acontecendo antes e durante a parada) em todos os 3 incidentes é Filesystem is NOT clean e, em seguida, um Replaying journal que parece fazer muito trabalho, mas nunca chega a 100%:

Reiserfs super block in block 16 on 0xfd03 of format 3.6 with standard journal
Blocks (total/free): 786432/540858 by 4096 bytes
Filesystem is NOT clean
Replaying journal: Trans replayed: mountid 39, transid 12424272, desc 7381, len 9, commit 7391, next trans offset 7374

Replaying journal: |                                        |  0.1%  1 trans
Trans replayed: mountid 39, transid 12424273, desc 7392, len 9, commit 7402, next trans offset 7385

Trans replayed: mountid 39, transid 12424274, desc 7403, len 9, commit 7413, next trans offset 7396
Trans replayed: mountid 39, transid 12424275, desc 7414, len 9, commit 7424, next trans offset 7407

Replaying journal: |                                        /  0.5%  4 trans
Trans replayed: mountid 39, transid 12424276, desc 7425, len 8, commit 7434, next trans offset 7417

Trans replayed: mountid 39, transid 12424277, desc 7435, len 9, commit 7445, next trans offset 7428
Trans replayed: mountid 39, transid 12424278, desc 7446, len 9, commit 7456, next trans offset 7439

Replaying journal: |                                        -  1.0%  7 trans

Isso foi para 33% no primeiro incidente e para 58% no terceiro incidente.

O fim do sistema pode ser re-relacionado? Alguma idéia de onde devo olhar a seguir?

muito obrigado

    
por cherouvim 31.08.2011 / 20:13

1 resposta

2

Parece que você tem um disco rígido ruim (ou mais). Se um setor inválido for encontrado no disco durante o uso regular ... o sistema tenta imediatamente fazer uma recuperação dos dados e marca o disco como impuro. Sendo de 4 anos de idade, ou assim poderia muito bem estar tendo problemas de disco. A maioria das unidades de disco com sabor de desktop possui apenas uma garantia de 1 ou 3 anos ... e as unidades de nível de servidor normalmente têm apenas garantias de 3 a 5 anos. Você também pode querer considerar a execução de um utilitário como o Spinrite do GRC, que faz um trabalho incrível de verificação de problemas e também de atualização dos discos. (é incrivelmente bom em consertar todos os problemas de disco que não são o resultado de danos físicos nos pratos)

    
por 31.08.2011 / 20:19