MDADM Raid Drive reconstrói cada reinicialização

0

Então eu tenho postado muito sobre uma compilação RAID com MDADM e Ubuntu (desculpe por isso). Eu não estou entendendo o que está acontecendo com a minha configuração.

Eu tenho uma configuração RAID-5 e segui exatamente este guia para isso: link

Anwyay, estou me deparando com esse problema consistente. Desligo o RAID às vezes quando não preciso dele, e quando o ligo de novo fico preso em uma tela roxa. Eu posso sair dessa tela simplesmente digitando exit, e ele vai me dizer que meu ataque está Degradado, perguntando se eu quero inicializá-lo ou não. Depois disso, é a tela de login normal. Então, isso é o que eu vejo via SSH: (digitando)

mdadm-D /dev/md127

Em seguida, ele retorna para mim que uma das unidades é "removida"

Então eu vou:

mdadm --manage /dev/md127 --add /dev/sd** (** standing for the drive)

Isso é o que eu sempre recebo de volta

mdadm: /dev/sd** reports being an active member for /dev/md127, but a --re-add fails.
mdadm: not performing --add as that would convert /dev/sdb1 in to a spare.
mdadm: To make this a spare, use "mdadm --zero-superblock /dev/sd**" first.

Então, eu seguirei essas instruções e, novamente, adicionarei novamente a unidade e, em seguida, o RAID será reconstruído corretamente.

O que me deixa frustrado é que isso acontece com muita frequência, e não tenho ideia do motivo. Alguém pode me ajudar? Às vezes funciona bem e às vezes não funciona. Tudo o que estou fazendo é desligá-lo ou ligado. Qualquer ajuda é muito apreciada, eu não entendo porque meu RAID não funcionará normalmente ou o que estou fazendo de errado.

    
por vpoola88 31.07.2012 / 14:08

1 resposta

2

Acabei de ter um problema semelhante quando reiniciei meu servidor de arquivos e vi um erro semelhante.

Ao usar "smartctl --all / dev / sda" (por exemplo) é útil verificar o valor de Reallocated_Sector_Ct, se este for diferente de zero e começar a subir drasticamente, significa que seu disco pode estar falhando e é hora de tirar um backup.

aqui estão os valores do meu par de drives (certifique-se de rolar para a direita para ver os valores do campo)

sda:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   162   161   021    Pre-fail  Always       -       6875
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       50
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   065   065   000    Old_age   Always       -       25675
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       48
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       9
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       50
194 Temperature_Celsius     0x0022   105   099   000    Old_age   Always       -       45
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       5
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

e sdb:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   164   164   021    Pre-fail  Always       -       6775
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       38
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   066   066   000    Old_age   Always       -       25548
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       36
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       6
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       38
194 Temperature_Celsius     0x0022   110   099   000    Old_age   Always       -       40
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

a boa notícia é que estou obtendo o valor bruto 0 para as contagens do setor realocado.

espero que isso ajude

    
por Paul M 13.08.2012 / 16:45