Como você verifica a integridade de discos rígidos individuais em uma matriz RAID?

Question

Como você verifica a integridade de discos rígidos individuais em uma matriz RAID?

#1 resposta do (4 votos)
#2 resposta do (2 votos)
#3 resposta do (2 votos)

5

Estou executando uma matriz simples RAID 1 de 1 TB com o mdadm no Ubuntu Server 10.10. Eu gostaria de simplesmente verificar o status de cada disco rígido para garantir que ambos sejam funcionais antes que seja tarde demais. Como eu poderia fazer isso facilmente?

hard-drive raid ubuntu

por JayD3e 18.03.2011 / 18:09

3 respostas

2

Algo como "mdadm --query --detail/dev/md0" deve funcionar, mas quando a unidade falha, a raiz recebe um e-mail (é a configuração padrão no Centos e eu acredito em outras distros como bem). Basta verificar essa notificação por falhar (como: mdadm --manage / dev / md0 --fail / dev / sda1) e você terá 100% de certeza.

por 18.03.2011 / 18:15

2

Você vai querer instalar o smartd e verificar suas opções de configuração para ele.

Para mim, especificamente monitorando meus discos RAID:

/dev/sda -a
/dev/sdb -a
/dev/sdc -a

Isso me proporciona um monitoramento do que eu preciso.

Você também pode configurar o smartd para realizar testes de unidade completa em horários especificados.

por 18.03.2011 / 18:14

Tags hard-drive raid ubuntu

Conselhos de Reutilização de Chaves SSH Altere a letra da unidade de CD-Rom Windows 2008 R2 [fechado]

score 4 · Accepted Answer

Normalmente, o que você quer é um pacote chamado smartmontools. Pode consultar a interface SMART nos seus discos, que é na maioria dos discos modernos.

Existe um daemon chamado smartd que pode ajudá-lo com monitoramento contínuo.

No entanto, se o seu sistema for um servidor doméstico, apenas verificar manualmente é sempre melhor. Assim:

smartctl -a / dev / sda

Muitos dados são divulgados. As coisas que mais me interessam são as seguintes:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE

  1 Raw_Read_Error_Rate     0x000f   100   100   051    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   100   100   051    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       13946
 13 Read_Soft_Error_Rate    0x000e   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   075   066   000    Old_age   Always       -       25
194 Temperature_Celsius     0x0022   075   064   000    Old_age   Always       -       25
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x003e   100   100   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x000a   100   100   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   100   100   000    Old_age   Always       -       0

Isso lhe dá uma maneira de medir a saúde da unidade subjetivamente. Quando a taxa de erro começa a subir, é hora de procurar uma substituição. Além disso, você pode verificar se eles não estão funcionando bem.