Como determinar qual unidade em um RAID de firmware está falhando

2

Eu tenho duas unidades em um Intel ICH10 RAID 1. Elas não são unidades de nível corporativo; apenas discos WD Caviar Black comuns.

Recentemente, a leitura / gravação no volume espelhado tornou-se extremamente lenta e a luz do HDD está acesa constantemente. Eu suspeito que isso pode ser devido a um dos discos se aproximando do fracasso e tentando remapeamento do setor . (Veja também Qual é a maneira mais rápida de forçar o hdd a realocar setores defeituosos e descartar os dados? ). Se fosse um disco corporativo, ele falharia de forma rápida e limpa, mas esse comportamento é típico de discos de consumo. Por isso, não fica imediatamente claro qual é o disco ruim.

Nenhuma das unidades exibe dados SMART problemáticos (isso é da Caixa de ferramentas SSD da Intel que parece ser uma das poucas opções para ler dados SMART de um firmware RAID da Intel):

Primeira viagem

Segundaunidade

Infelizmente, a ferramenta WD Data Lifeguard Diagnostic , que é capaz de executar testes SMART é completamente confuso com o Intel ICH10 RAID:

Como posso saber qual é a unidade problemática e trocá-la?

    
por Andrew Mao 22.04.2014 / 05:55

1 resposta

2

Do que você descreve, a primeira unidade está com defeito. Read Error Rate e Re-allocated Sector Count são diferentes de zero. A realocação de setores é exatamente o que acontece quando a unidade não consegue ler um setor. Em seguida, ele realocará esse setor na próxima operação de gravação.

Você pode fazer várias coisas para confirmar este diagnóstico:

Simples, mas incerto: use uma ferramenta como HDD Scan para escanear seu disco, ou seja, leia todos os setores de seu disco. Você também pode fazer essa operação no seu array RAID 1. Porém, cabe ao firmware RAID decidir se ele lerá os dados do disco 1 oder disk 2. Portanto, esse método não verificará todos os setores nos dois discos. Mas se o disco 1 está prestes a falhar, é bastante provável (mas não garantido), que seus valores SMART irão piorar.

Fique de olho em Re-allocated Sector Count , Reallocation Event Count e Current Pending Sector Count . Se esses valores aumentarem, sua unidade provavelmente falhará em breve.

Complicado, mas dá mais certeza:

  1. Monte suas unidades em um gabinete pc / usb / porta SATA diferente.
  2. Inicialize a partir de um Live CD (por exemplo, Ubuntu ou Knoppix).
  3. Realize um teste somente leitura das suas unidades. Você pode fazer isso com comandos SMART e / ou usando ferramentas como dd ou badblocks
    • NÃO tente montar o sistema de arquivos
    • NÃO escreva qualquer coisa na unidade
    • quando você faz operações somente de leitura, você pode montar novamente o RAID sem que ele esteja marcado como defeituoso / inconsistente.
  4. Fique de olho nos mesmos valores mencionados acima. Agora você também deve conseguir ler os valores SMART corretamente. A SMART normalmente também tem um log sobre erros anteriores que aconteceram. Dirija 1 chapéu pelo menos dois deles. O registro de data e hora é geralmente expresso como poder-em-horas. Então você terá que calcular de volta a partir do atual poder-em-horas e ver se isso se correlaciona com o tempo que você experimentou os problemas.
por 22.04.2014 / 12:13