Como diagnosticar falha na unidade no servidor com o controlador de armazenamento raid?

2

Eu tenho problema com um dos meus Dell PowerEdge R210. A máquina está com o Centos 6, hoje os logs do sistema começaram a informar que o disco rígido está falhando.

Jan  6 03:20:12 centos6 kernel: LSI Debug log info 31080000 for channel 0 id 0
Jan  6 03:20:12 centos6 kernel: sd 0:1:0:0: [sda] Unhandled sense code
Jan  6 03:20:12 centos6 kernel: sd 0:1:0:0: [sda] Result: hostbyte=invalid driverbyte=DRIVER_SENSE
Jan  6 03:20:12 centos6 kernel: sd 0:1:0:0: [sda] Sense Key : Medium Error [current]
Jan  6 03:20:12 centos6 kernel: Info fld=0x21a9055
Jan  6 03:20:12 centos6 kernel: sd 0:1:0:0: [sda] Add. Sense: Unrecovered read error
Jan  6 03:20:12 centos6 kernel: sd 0:1:0:0: [sda] CDB: Read(10): 28 00 02 1a 90 20 00 00 38 00
Jan  6 03:22:17 centos6 kernel: mptbase: ioc0: LogInfo(0x31080000): Originator={PL}, Code={SATA NCQ Fail All Commands After Error}, SubCode(0x0000) cb_idx mptscsih_io_done
Jan  6 03:22:17 centos6 kernel: LSI Debug log info 31080000 for channel 0 id 0
Jan  6 03:22:17 centos6 kernel: mptbase: ioc0: LogInfo(0x31080000): Originator={PL}, Code={SATA NCQ Fail All Commands After Error}, SubCode(0x0000) cb_idx mptscsih_io_done
Jan  6 03:22:17 centos6 kernel: LSI Debug log info 31080000 for channel 0 id 0
Jan  6 03:22:17 centos6 kernel: mptbase: ioc0: LogInfo(0x31080000): Originator={PL}, Code={SATA NCQ Fail All Commands After Error}, SubCode(0x0000) cb_idx mptscsih_io_done
Jan  6 03:22:17 centos6 kernel: LSI Debug log info 31080000 for channel 0 id 0
Jan  6 03:22:17 centos6 kernel: mptbase: ioc0: LogInfo(0x31080000): Originator={PL}, Code={SATA NCQ Fail All Commands After Error}, SubCode(0x0000) cb_idx mptscsih_io_done
Jan  6 03:22:17 centos6 kernel: LSI Debug log info 31080000 for channel 0 id 0
Jan  6 03:22:17 centos6 kernel: mptbase: ioc0: LogInfo(0x31080000): Originator={PL}, Code={SATA NCQ Fail All Commands After Error}, SubCode(0x0000) cb_idx mptscsih_io_done
Jan  6 03:22:17 centos6 kernel: LSI Debug log info 31080000 for channel 0 id 0
Jan  6 03:22:17 centos6 kernel: sd 0:1:0:0: [sda] Unhandled sense code
Jan  6 03:22:17 centos6 kernel: sd 0:1:0:0: [sda] Result: hostbyte=invalid driverbyte=DRIVER_SENSE
Jan  6 03:22:17 centos6 kernel: sd 0:1:0:0: [sda] Sense Key : Medium Error [current]
Jan  6 03:22:17 centos6 kernel: Info fld=0x21a7d89
Jan  6 03:22:17 centos6 kernel: sd 0:1:0:0: [sda] Add. Sense: Unrecovered read error
Jan  6 03:22:17 centos6 kernel: sd 0:1:0:0: [sda] CDB: Read(10): 28 00 02 1a 7d 80 00 00 18 00
Jan  6 03:22:19 centos6 kernel: sd 0:1:0:0: [sda] Unhandled sense code
Jan  6 03:22:19 centos6 kernel: sd 0:1:0:0: [sda] Result: hostbyte=invalid driverbyte=DRIVER_SENSE
Jan  6 03:22:19 centos6 kernel: sd 0:1:0:0: [sda] Sense Key : Medium Error [current]
Jan  6 03:22:19 centos6 kernel: Info fld=0x21a7dc0
Jan  6 03:22:19 centos6 kernel: sd 0:1:0:0: [sda] Add. Sense: Unrecovered read error
Jan  6 03:22:19 centos6 kernel: sd 0:1:0:0: [sda] CDB: Read(10): 28 00 02 1a 7d c0 00 00 80 00
Jan  6 03:28:05 centos6 kernel: sd 0:1:0:0: [sda] Unhandled sense code
Jan  6 03:28:05 centos6 kernel: sd 0:1:0:0: [sda] Result: hostbyte=invalid driverbyte=DRIVER_SENSE
Jan  6 03:28:05 centos6 kernel: sd 0:1:0:0: [sda] Sense Key : Medium Error [current]
Jan  6 03:28:05 centos6 kernel: Info fld=0x21a7d88
Jan  6 03:28:05 centos6 kernel: sd 0:1:0:0: [sda] Add. Sense: Unrecovered read error
Jan  6 03:28:05 centos6 kernel: sd 0:1:0:0: [sda] CDB: Read(10): 28 00 02 1a 7d 88 00 00 08 00
Jan  6 03:28:09 centos6 kernel: sd 0:1:0:0: [sda] Unhandled sense code
Jan  6 03:28:09 centos6 kernel: sd 0:1:0:0: [sda] Result: hostbyte=invalid driverbyte=DRIVER_SENSE

Agora, presumo que esta máquina tenha um controlador RAID, mas não saiba que tipo de RAID está configurado (se houver algum).

Saída do lspci:

01:00.0 SCSI storage controller: LSI Logic / Symbios Logic SAS1068E PCI-Express Fusion-MPT SAS (rev 08)

Portanto, esta é a minha pergunta: Existe uma maneira de diagnosticar esse problema sem reiniciar a máquina, a partir da linha de comando do Linux? Do nível do sistema eu vejo apenas unidades lógicas não unidades de disco rígido que estão conectadas em RAID, o que normalmente é bom, mas agora quero verificar se há RAID e quais discos rígidos são membros desse RAID e qual disco rígido está falhando.

EDIT1. Para este momento eu tenho apenas acesso ssh a esta maquina então essa é a razão porque eu quero saber se isso é possível diagnosticar esse problema via ssh.

    
por B14D3 07.01.2014 / 11:37

2 respostas

3

Se você não está disposto a reiniciar o sistema para instalar as ferramentas do fabricante, basicamente ficará sentado aqui sendo teimoso até que a máquina morra completamente.
Nesse ponto, não importa o que você quer. A máquina cairá, provavelmente para sempre. Você não terá que se preocupar com a reinicialização porque terá que fazer isso como parte da substituição dos discos rígidos & restaurando de seus backups. (Você DO tem backups, certo?).

Palestra.

Se você não quiser instalar as ferramentas de diagnóstico do fabricante, sua única opção é ir até a máquina e procurar a unidade com a luz "falha" vermelha intermitente (ou amarela). Substitua esse.
Isso, obviamente, pressupõe RAID-1, RAID-5, RAID-6 ou alguma outra configuração que permita substituir uma única unidade com falha (e que você tenha apenas uma única unidade com falha). Se você não estiver nessa configuração, ou se mais unidades tiverem falhado do que o nível de tolerância a falhas do seu sistema, você estará de volta para "substituir todas as unidades e restaurar a partir do backup".

Faltando backups com os quais você está preso " MAKE BACKUPS , se você não conseguiu tudo o que precisa, ligue para uma empresa de recuperação de dados e tente salvar o que puder ".

    
por 09.01.2014 / 19:36
1

O disco tem erros médios, o que significa que há dados ilegíveis. As informações de log do LSI (0x31080000) informam que os pedidos de veiculação posteriores falharam devido à maneira como o SATA faz a recuperação de erros. Isso não é um problema por si só.

Você tem um disco defeituoso e já perdeu dados, se você tiver o RAID, ele também falhou em seu trabalho. Muito provavelmente, embora você não tenha RAID, para saber que você deve olhar para a saída do lsscsi, ele lhe dirá a marca e o modelo do dispositivo / dev / sda. Se ele diz um disco rígido (WD, Hitachi, Seagate) você tem um HDD sozinho lá, se diz LSI você tem um dispositivo RAID.

De qualquer forma, você já perdeu dados, pois mesmo que seja um dispositivo RAID, ele não conseguiu se recuperar do Erro Médio subjacente e retornou um Erro Médio no final também.

O que fazer depois disso?

Você precisa descobrir quais arquivos perdeu, tentar lê-los um por um (find, xargs e cat são bons para isso) e ver quais arquivos não podem ser lidos. Você precisará trazê-los do backup.

Para recuperar os setores, simplesmente escreva-os novamente e isso consertará o erro médio atual, você pode simplesmente deletar os arquivos ou escrever sobre eles e o sistema de arquivos fará isso em seu próprio tempo.

Para saber se o HDD ainda vale a pena ser usado, você precisa ver se o problema se repete ou se expande, você pode usar o smartctl para isso, procurar o número de realocações principalmente se ele crescer mais de uma vez por mês você quer substituí-lo.

Se tiver dúvidas e se importar com os dados, substitua o disco. Um disco com erros médios é mais provável que seja ruim do que um sem nenhum.

    
por 31.10.2014 / 10:29