linux raid 1: logo após substituir e sincronizar uma unidade, o outro disco falha - entendendo o que está acontecendo com mdstat / mdadm

Question

linux raid 1: logo após substituir e sincronizar uma unidade, o outro disco falha - entendendo o que está acontecendo com mdstat / mdadm

#1 resposta do (1 votos)

2

Temos um antigo servidor Linux RAID 1 (Ubuntu Lucid 10.04), com quatro partições. Alguns dias atrás / dev / sdb falhou, e hoje notamos que / dev / sda tinha sinais SMART ameaçadores pré-falha (~ 4.000 reais de contagem setorial). Nós substituímos / dev / sdb esta manhã e reconstruímos o RAID na nova unidade, seguindo este guia:

link

Tudo correu bem até o final. Quando parecia que estava terminando de sincronizar a última partição, a outra antiga falhou. Neste momento estou muito inseguro do estado do sistema. Tudo parece funcionando e os arquivos parecem estar todos acessíveis, como se ele sincronizasse tudo, mas eu sou novo no RAID e estou preocupado com o que está acontecendo.

A saída / proc / mdstat é:

Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10] 
md3 : active raid1 sdb4[2](S) sda4[0]
      478713792 blocks [2/1] [U_]

md2 : active raid1 sdb3[1] sda3[2](F)
      244140992 blocks [2/1] [_U]

md1 : active raid1 sdb2[1] sda2[2](F)
      244140992 blocks [2/1] [_U]

md0 : active raid1 sdb1[1] sda1[2](F)
      9764800 blocks [2/1] [_U]

unused devices: <none>

A ordem de [_U] vs [U_] . Por que eles não são consistentes ao longo de todo o array? É o primeiro U / dev / sda ou / dev / sdb? (Eu tentei procurar na web por esta informação trivial, mas não encontrei nenhuma indicação explícita) Se eu ler corretamente para md0, [_U] deve ser / dev / sda1 (para baixo) e / dev / sdb1 (para cima). Mas se / dev / sda falhar, como pode ser o oposto para o md3? Eu entendo / dev / sdb4 é agora de reposição, porque provavelmente não conseguiu sincronizá-lo 100%, mas por que ele mostra / dev / sda4 como up ? Não deveria ser [__] ? Ou [_U] mesmo assim? A unidade / dev / sda agora não pode mais ser acessada pela SMART aparentemente, então eu não esperaria que ela estivesse funcionando. O que há de errado com a minha interpretação do resultado?

Eu também anexo as saídas de mdadm --detail para as quatro partições:

/dev/md0:
        Version : 00.90
  Creation Time : Fri Jan 21 18:43:07 2011
     Raid Level : raid1
     Array Size : 9764800 (9.31 GiB 10.00 GB)
  Used Dev Size : 9764800 (9.31 GiB 10.00 GB)
   Raid Devices : 2
  Total Devices : 2
Preferred Minor : 0
    Persistence : Superblock is persistent

    Update Time : Tue Nov  5 17:27:33 2013
          State : clean, degraded
 Active Devices : 1
Working Devices : 1
 Failed Devices : 1
  Spare Devices : 0

           UUID : a3b4dbbd:859bf7f2:bde36644:fcef85e2
         Events : 0.7704

    Number   Major   Minor   RaidDevice State
       0       0        0        0      removed
       1       8       17        1      active sync   /dev/sdb1

       2       8        1        -      faulty spare   /dev/sda1

/dev/md1:
        Version : 00.90
  Creation Time : Fri Jan 21 18:43:15 2011
     Raid Level : raid1
     Array Size : 244140992 (232.83 GiB 250.00 GB)
  Used Dev Size : 244140992 (232.83 GiB 250.00 GB)
   Raid Devices : 2
  Total Devices : 2
Preferred Minor : 1
    Persistence : Superblock is persistent

    Update Time : Tue Nov  5 17:39:06 2013
          State : clean, degraded
 Active Devices : 1
Working Devices : 1
 Failed Devices : 1
  Spare Devices : 0

           UUID : 8bcd5765:90dc93d5:cc70849c:224ced45
         Events : 0.1508280

    Number   Major   Minor   RaidDevice State
       0       0        0        0      removed
       1       8       18        1      active sync   /dev/sdb2

       2       8        2        -      faulty spare   /dev/sda2


/dev/md2:
        Version : 00.90
  Creation Time : Fri Jan 21 18:43:19 2011
     Raid Level : raid1
     Array Size : 244140992 (232.83 GiB 250.00 GB)
  Used Dev Size : 244140992 (232.83 GiB 250.00 GB)
   Raid Devices : 2
  Total Devices : 2
Preferred Minor : 2
    Persistence : Superblock is persistent

    Update Time : Tue Nov  5 17:46:44 2013
          State : clean, degraded
 Active Devices : 1
Working Devices : 1
 Failed Devices : 1
  Spare Devices : 0

           UUID : 2885668b:881cafed:b8275ae8:16bc7171
         Events : 0.2289636

    Number   Major   Minor   RaidDevice State
       0       0        0        0      removed
       1       8       19        1      active sync   /dev/sdb3

       2       8        3        -      faulty spare   /dev/sda3

/dev/md3:
        Version : 00.90
  Creation Time : Fri Jan 21 18:43:22 2011
     Raid Level : raid1
     Array Size : 478713792 (456.54 GiB 490.20 GB)
  Used Dev Size : 478713792 (456.54 GiB 490.20 GB)
   Raid Devices : 2
  Total Devices : 2
Preferred Minor : 3
    Persistence : Superblock is persistent

    Update Time : Tue Nov  5 17:19:20 2013
          State : clean, degraded
 Active Devices : 1
Working Devices : 2
 Failed Devices : 0
  Spare Devices : 1

    Number   Major   Minor   RaidDevice State
       0       8        4        0      active sync   /dev/sda4
       1       0        0        1      removed

       2       8       20        -      spare   /dev/sdb4

A sincronização ativa em / dev / sda4 me confunde.

Estou preocupado porque se amanhã de manhã tiver que substituir / dev / sda, quero ter certeza do que devo sincronizar com o que e o que está acontecendo. Eu também estou bastante perplexo com o fato de o / dev / sda ter decidido falhar exatamente quando o ataque terminou de ressincronizar. Eu gostaria de entender o que está realmente acontecendo.

Muito obrigado pela sua paciência e ajuda.

Massimo

raid mdadm linux drive-failure

por devicerandom 05.11.2013 / 16:50

1 resposta

Tags raid mdadm linux drive-failure

Diferença entre “Objetos de usuário descendente” e apenas “Objetos de usuário” Longa 'pausa' depois de copiar arquivos grandes no Windows 2008

score 1 · Answer 1

Q1: The order of [U] vs [U]. Why aren't they consistent along all the array? Is the first U /dev/sda or /dev/sdb?

O pedido é baseado nos números do RaidDevice. Estes são os números nos colchetes das linhas como esta:

md3 : active raid1 sdb4[2](S) sda4[0]
      478713792 blocks [2/1] [U_]

md2 : active raid1 sdb3[1] sda3[2](F)
      244140992 blocks [2/1] [_U]

md1 : active raid1 sdb2[1] sda2[2](F)
      244140992 blocks [2/1] [_U]

...

Para o md3, o dispositivo sda4 é o # 0. O dispositivo sdb4 é o nº 2. Então o U é para o dispositivo sba4. Para md2, o U é para o dispositivo sda3, nº2. Então, parece que você dirige sdb é um dos que têm os problemas, uma vez que nenhuma dessas partições está listada como "UP" aka. "VOCÊ". Eles são todos relatados como "DOWN" aka. "_".

Q2: Shouldn't it be [__]? Or [_U] anyway?

A saída de /proc/mdstat deve ser igual a [UU] . eles estão todos "UP". Por exemplo, aqui está minha matriz RAID1, com 2 membros.

$ cat /proc/mdstat
Personalities : [raid1] 
md0 : active raid1 sdb1[1] sda1[0]
      976759936 blocks [2/2] [UU]

unused devices: <none>

Referências

Mdstat