Que unidade no RAID tem setores defeituosos?

3

Eu tenho 4 unidades físicas em uma única unidade virtual usando um controlador SAS LSI MegaRaid. Parece (pelo menos) uma das unidades tem setores defeituosos porque:

  • erros de io ocorrem ao tentar fazer backup de alguns arquivos
  • executando badblocks informa alguns setores defeituosos

Espero que resolver o problema seja tão simples quanto trocar o (s) disco (s) problemático (s) e reconstruir o array do RAID. Eu pensei que o LSI MegaRaid WebBIOS permitiria identificar o (s) disco (s) problemático (s), mas não consigo encontrar nenhuma opção para verificar se há setores defeituosos.

Abaixo está uma captura de tela do WebBIOS:

Alguém poderia oferecer algum conselho sobre como o (s) disco (s) problemático (s) pode (m) ser identificado (s)?

    
por James 30.09.2016 / 06:14

3 respostas

8

O Smartmontools possui extensões que permitem pesquisar uma unidade por dados SMART por meio de uma matriz RAID LSI (bem como outras). Normalmente, isso não é algo que você pode fazer, já que a abstração RAID obscurece as interfaces diretas com as unidades.

O Smartmontools pode não estar instalado em sua máquina. No entanto, ele é nativo da maioria dos "repositórios principais" da maioria das distribuições, e existe até uma versão do Windows em: link

Ele pode ser usado para pesquisar uma unidade atrás de um controlador LSI MegaRAID da seguinte forma:

smartctl -a -d megaraid,N /dev/sdX

Onde "-a" significa exibir todos os dados do disco, -d significa tipo de dispositivo (megaraid sendo o tipo no seu caso), seguido por N, que significa o número da unidade nesse controlador. Para acessar a unidade no slot 0, você diria 0 aqui. Se você deseja pesquisar todos os quatro de seus drives, execute este comando quatro vezes, substituindo N por 0 a 3. O sdX é a própria abstração RAID, como visto normalmente dentro do sistema operacional. Seu é provavelmente sda.

Você verá uma saída longa de cada unidade, e o que você está procurando é uma falha SMART geral relatada (que talvez você não encontre, já que seu controlador não está rejeitando unidades) ou relatou "setores offline incorrigíveis "ou" setores pendentes ". Qualquer unidade com mais de 0 neste campo é ruim. Nenhuma misericórdia deve ser dada a esses campos, pois é preciso muitas leituras com falha para incrementar um dos valores em um.

Você também pode realizar um teste curto ou longo assim (as mesmas regras acima se aplicam):

smartctl -t [long|short] -d megaraid,N /dev/sdX

    
por 30.09.2016 / 07:56
5

Se o RAID passar os erros para você, então, obviamente, algo está errado e não pode ser silenciosamente corrigido.

Se você obtiver erros de leitura, isso significa que todas as cópias redundantes desses blocos foram destruídas. As unidades defeituosas não são ejetadas, porque não há peças sobressalentes.

Se você obtiver erros de gravação, isso significa que uma unidade continua a relatar erros de gravação e a RAID não pode ejetá-la porque ela não é redundante no momento. Você nunca deve ver um erro de gravação em uma configuração redundante, portanto, se fizer isso, substitua o controlador.

Se você puder adicionar mais discos, crie um terceiro espelho - a recuperação será uma reclamação, e você precisará verificar os sistemas de arquivos, mas deverá acabar com o máximo possível de seus dados, e eu espere qualquer bom controlador para expulsar todos os discos quebrados.

Quando estiver de volta em uma configuração limpa, configure verificações programadas para detectar esses erros antes que eles se tornem um problema.

    
por 30.09.2016 / 10:39
2

Se você estiver usando Linux ou Windows, inicialize seu sistema e use o utilitário megacli.

megacli -pdlist -aALL

Nos resultados, marque a linha "Estado do firmware". O disco degradado será exibido como:

Firmware state: Offline
    
por 30.09.2016 / 07:46