Problema no HPC OSS Node com erro de disco rígido local ilegível

1

Temos uma configuração de HPC com quatro servidores OSS (OSS1 para OSS4) e dois nós MDS (MDS1 para MDS2) Ele foi executado até ontem sem nenhum problema. Hoje de manhã eu descobri que o OSS4 está em condição de desligamento. Eu verifiquei os logs do OSS3 e descobri que ele chegou ao estado de esgrima Eu novamente liguei o OSS4 agora em execução

Nos logs do OSS4, vi alguns erros "ilegíveis", conforme mencionado abaixo

Feb 26 04:24:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors 
Feb 26 04:54:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors 
Feb 26 05:24:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors 
Feb 26 05:54:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors 
Feb 26 06:24:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors 
Feb 26 06:54:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors 
Feb 26 07:24:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors 

/dev/sda é um disco rígido local. É possível que o fence do nó seja devido a esse erro? Enquanto corre o e2fsck irá resolver este problema?

Com isto eu anexei o /var/log/messages de OSS3 e OSS4 Alguém pode por favor analisar o arquivo de log e gentilmente me ajudar o que fazer?

    
por Newton 27.02.2012 / 12:49

1 resposta

1

Esse disco está quebrado . Espero que esteja em um par RAID1. Puxe o quebrado, coloque um novo, deixe-o ressincronizar.
Envie o busto de volta ao fabricante para RMA.

Espero que seu sistema tenha um monitoramento que já tenha alertado o fornecedor sobre o problema, e eles podem até ter enviado um novo disco para você.

De qualquer forma, é transado. Substitua-o.

    
por 27.02.2012 / 13:18

Tags