MDADM - como remontar o RAID-5 (dispositivo de relatório ou recurso ocupado)

4

Eu sou novo na cena do Linux e não tenho experiência suficiente para me considerar alguém que possa ser confiável usando o sistema: P

Seja como for, curta a história - decidi usar o Linux RAID 5, por considerá-lo mais estável do que executá-lo no Windows.
Recentemente, o RAID falhou em montar, e tenho certeza de que ele encontrou um problema ao tentar reconstruí-lo.

Tentando montar o array agora, mdadm mantém o dispositivo de relatório ou o recurso ocupado - e ainda não está montado ou ocupado com qualquer coisa que eu saiba. O Google informou que o dmraid é um possível culpado - mas tentar removê-lo mostra que ele não está instalado.

O sistema é um RAID-5 de 12 unidades, mas parece que 2 das unidades não estão tendo os dados de superblocos corretos instalados.

Eu incluí a saída da maioria dos comandos comuns abaixo

cat /proc/mdstat

erwin@erwin-ubuntu:~$ cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] 
md0 : inactive sdd1[10](S) sde1[2](S) sdf1[11](S) sdg1[6](S) sdm1[4](S) sdl1[9](S) sdk1[5](S) sdj1[7](S) sdi1[13](S) sdc1[8](S) sdb1[0](S) sda1[3](S)
     11721120064 blocks

unused devices: <none>

detalhe mdadm

erwin@erwin-ubuntu:~$ sudo mdadm --detail /dev/md0
mdadm: md device /dev/md0 does not appear to be active.
erwin@erwin-ubuntu:~$

mdadm examina

Parte estranha notada - não sei por que, mas a unidade do sistema geralmente era sda - agora, de repente, é sdh - e não, eu não movi nenhuma fiação física?

erwin@erwin-ubuntu:~$ sudo mdadm --examine /dev/sd*1
/dev/sda1:
          Magic : a92b4efc
        Version : 0.90.00
           UUID : 7964c122:1ec1e9ff:efb010e8:fc8e0ce0 (local to host erwin-ubuntu)
  Creation Time : Sun Oct 10 11:54:54 2010
     Raid Level : raid5
  Used Dev Size : 976759936 (931.51 GiB 1000.20 GB)
     Array Size : 10744359296 (10246.62 GiB 11002.22 GB)
   Raid Devices : 12
  Total Devices : 12
Preferred Minor : 0

    Update Time : Mon Dec  5 19:24:00 2011
          State : clean
 Active Devices : 10
Working Devices : 11
 Failed Devices : 2
  Spare Devices : 1
       Checksum : 35a1bcd - correct
         Events : 74295

         Layout : left-symmetric
     Chunk Size : 64K

      Number   Major   Minor   RaidDevice State
this     3       8       97        3      active sync   /dev/sdg1

   0     0       8      113        0      active sync   /dev/sdh1
   1     1       0        0        1      faulty removed
   2     2       0        0        2      faulty removed
   3     3       8       97        3      active sync   /dev/sdg1
   4     4       8       81        4      active sync   /dev/sdf1
   5     5       8       49        5      active sync   /dev/sdd1
   6     6       8      193        6      active sync   /dev/sdm1
   7     7       8       33        7      active sync   /dev/sdc1
   8     8       8      129        8      active sync   /dev/sdi1
   9     9       8       65        9      active sync   /dev/sde1
  10    10       8      145       10      active sync   /dev/sdj1
  11    11       8      177       11      active sync   /dev/sdl1
  12    12       8      161       12      faulty   /dev/sdk1
/dev/sdb1:
          Magic : a92b4efc
        Version : 0.90.00
           UUID : 7964c122:1ec1e9ff:efb010e8:fc8e0ce0 (local to host erwin-ubuntu)
  Creation Time : Sun Oct 10 11:54:54 2010
     Raid Level : raid5
  Used Dev Size : 976759936 (931.51 GiB 1000.20 GB)
     Array Size : 10744359296 (10246.62 GiB 11002.22 GB)
   Raid Devices : 12
  Total Devices : 12
Preferred Minor : 0

    Update Time : Mon Dec  5 19:24:00 2011
          State : clean
 Active Devices : 10
Working Devices : 11
 Failed Devices : 2
  Spare Devices : 1
       Checksum : 35a1bd7 - correct
         Events : 74295

         Layout : left-symmetric
     Chunk Size : 64K

      Number   Major   Minor   RaidDevice State
this     0       8      113        0      active sync   /dev/sdh1

   0     0       8      113        0      active sync   /dev/sdh1
   1     1       0        0        1      faulty removed
   2     2       0        0        2      faulty removed
   3     3       8       97        3      active sync   /dev/sdg1
   4     4       8       81        4      active sync   /dev/sdf1
   5     5       8       49        5      active sync   /dev/sdd1
   6     6       8      193        6      active sync   /dev/sdm1
   7     7       8       33        7      active sync   /dev/sdc1
   8     8       8      129        8      active sync   /dev/sdi1
   9     9       8       65        9      active sync   /dev/sde1
  10    10       8      145       10      active sync   /dev/sdj1
  11    11       8      177       11      active sync   /dev/sdl1
  12    12       8      161       12      faulty   /dev/sdk1
/dev/sdc1:
          Magic : a92b4efc
        Version : 0.90.00
           UUID : 7964c122:1ec1e9ff:efb010e8:fc8e0ce0 (local to host erwin-ubuntu)
  Creation Time : Sun Oct 10 11:54:54 2010
     Raid Level : raid5
  Used Dev Size : 976759936 (931.51 GiB 1000.20 GB)
     Array Size : 10744359296 (10246.62 GiB 11002.22 GB)
   Raid Devices : 12
  Total Devices : 12
Preferred Minor : 0

    Update Time : Mon Dec  5 19:24:00 2011
          State : clean
 Active Devices : 10
Working Devices : 11
 Failed Devices : 2
  Spare Devices : 1
       Checksum : 35a1bf7 - correct
         Events : 74295

         Layout : left-symmetric
     Chunk Size : 64K

      Number   Major   Minor   RaidDevice State
this     8       8      129        8      active sync   /dev/sdi1

   0     0       8      113        0      active sync   /dev/sdh1
   1     1       0        0        1      faulty removed
   2     2       0        0        2      faulty removed
   3     3       8       97        3      active sync   /dev/sdg1
   4     4       8       81        4      active sync   /dev/sdf1
   5     5       8       49        5      active sync   /dev/sdd1
   6     6       8      193        6      active sync   /dev/sdm1
   7     7       8       33        7      active sync   /dev/sdc1
   8     8       8      129        8      active sync   /dev/sdi1
   9     9       8       65        9      active sync   /dev/sde1
  10    10       8      145       10      active sync   /dev/sdj1
  11    11       8      177       11      active sync   /dev/sdl1
  12    12       8      161       12      faulty   /dev/sdk1
/dev/sdd1:
          Magic : a92b4efc
        Version : 0.90.00
           UUID : 7964c122:1ec1e9ff:efb010e8:fc8e0ce0 (local to host erwin-ubuntu)
  Creation Time : Sun Oct 10 11:54:54 2010
     Raid Level : raid5
  Used Dev Size : 976759936 (931.51 GiB 1000.20 GB)
     Array Size : 10744359296 (10246.62 GiB 11002.22 GB)
   Raid Devices : 12
  Total Devices : 12
Preferred Minor : 0

    Update Time : Mon Dec  5 19:24:00 2011
          State : clean
 Active Devices : 10
Working Devices : 11
 Failed Devices : 2
  Spare Devices : 1
       Checksum : 35a1c0b - correct
         Events : 74295

         Layout : left-symmetric
     Chunk Size : 64K

      Number   Major   Minor   RaidDevice State
this    10       8      145       10      active sync   /dev/sdj1

   0     0       8      113        0      active sync   /dev/sdh1
   1     1       0        0        1      faulty removed
   2     2       0        0        2      faulty removed
   3     3       8       97        3      active sync   /dev/sdg1
   4     4       8       81        4      active sync   /dev/sdf1
   5     5       8       49        5      active sync   /dev/sdd1
   6     6       8      193        6      active sync   /dev/sdm1
   7     7       8       33        7      active sync   /dev/sdc1
   8     8       8      129        8      active sync   /dev/sdi1
   9     9       8       65        9      active sync   /dev/sde1
  10    10       8      145       10      active sync   /dev/sdj1
  11    11       8      177       11      active sync   /dev/sdl1
  12    12       8      161       12      faulty   /dev/sdk1
/dev/sde1:
          Magic : a92b4efc
        Version : 0.90.00
           UUID : 7964c122:1ec1e9ff:efb010e8:fc8e0ce0 (local to host erwin-ubuntu)
  Creation Time : Sun Oct 10 11:54:54 2010
     Raid Level : raid5
  Used Dev Size : 976759936 (931.51 GiB 1000.20 GB)
     Array Size : 10744359296 (10246.62 GiB 11002.22 GB)
   Raid Devices : 12
  Total Devices : 12
Preferred Minor : 0

    Update Time : Mon Dec  5 08:05:07 2011
          State : clean
 Active Devices : 11
Working Devices : 12
 Failed Devices : 1
  Spare Devices : 1
       Checksum : 3597cbb - correct
         Events : 74284

         Layout : left-symmetric
     Chunk Size : 64K

      Number   Major   Minor   RaidDevice State
this     2       8      161        2      active sync   /dev/sdk1

   0     0       8      113        0      active sync   /dev/sdh1
   1     1       0        0        1      faulty removed
   2     2       8      161        2      active sync   /dev/sdk1
   3     3       8       97        3      active sync   /dev/sdg1
   4     4       8       81        4      active sync   /dev/sdf1
   5     5       8       49        5      active sync   /dev/sdd1
   6     6       8      193        6      active sync   /dev/sdm1
   7     7       8       33        7      active sync   /dev/sdc1
   8     8       8      129        8      active sync   /dev/sdi1
   9     9       8       65        9      active sync   /dev/sde1
  10    10       8      145       10      active sync   /dev/sdj1
  11    11       8      177       11      active sync   /dev/sdl1
  12    12       8       17       12      spare   /dev/sdb1
/dev/sdf1:
          Magic : a92b4efc
        Version : 0.90.00
           UUID : 7964c122:1ec1e9ff:efb010e8:fc8e0ce0 (local to host erwin-ubuntu)
  Creation Time : Sun Oct 10 11:54:54 2010
     Raid Level : raid5
  Used Dev Size : 976759936 (931.51 GiB 1000.20 GB)
     Array Size : 10744359296 (10246.62 GiB 11002.22 GB)
   Raid Devices : 12
  Total Devices : 12
Preferred Minor : 0

    Update Time : Mon Dec  5 19:24:00 2011
          State : clean
 Active Devices : 10
Working Devices : 11
 Failed Devices : 2
  Spare Devices : 1
       Checksum : 35a1c2d - correct
         Events : 74295

         Layout : left-symmetric
     Chunk Size : 64K

      Number   Major   Minor   RaidDevice State
this    11       8      177       11      active sync   /dev/sdl1

   0     0       8      113        0      active sync   /dev/sdh1
   1     1       0        0        1      faulty removed
   2     2       0        0        2      faulty removed
   3     3       8       97        3      active sync   /dev/sdg1
   4     4       8       81        4      active sync   /dev/sdf1
   5     5       8       49        5      active sync   /dev/sdd1
   6     6       8      193        6      active sync   /dev/sdm1
   7     7       8       33        7      active sync   /dev/sdc1
   8     8       8      129        8      active sync   /dev/sdi1
   9     9       8       65        9      active sync   /dev/sde1
  10    10       8      145       10      active sync   /dev/sdj1
  11    11       8      177       11      active sync   /dev/sdl1
  12    12       8      161       12      faulty   /dev/sdk1
/dev/sdg1:
          Magic : a92b4efc
        Version : 0.90.00
           UUID : 7964c122:1ec1e9ff:efb010e8:fc8e0ce0 (local to host erwin-ubuntu)
  Creation Time : Sun Oct 10 11:54:54 2010
     Raid Level : raid5
  Used Dev Size : 976759936 (931.51 GiB 1000.20 GB)
     Array Size : 10744359296 (10246.62 GiB 11002.22 GB)
   Raid Devices : 12
  Total Devices : 12
Preferred Minor : 0

    Update Time : Mon Dec  5 19:24:00 2011
          State : clean
 Active Devices : 10
Working Devices : 11
 Failed Devices : 2
  Spare Devices : 1
       Checksum : 35a1c33 - correct
         Events : 74295

         Layout : left-symmetric
     Chunk Size : 64K

      Number   Major   Minor   RaidDevice State
this     6       8      193        6      active sync   /dev/sdm1

   0     0       8      113        0      active sync   /dev/sdh1
   1     1       0        0        1      faulty removed
   2     2       0        0        2      faulty removed
   3     3       8       97        3      active sync   /dev/sdg1
   4     4       8       81        4      active sync   /dev/sdf1
   5     5       8       49        5      active sync   /dev/sdd1
   6     6       8      193        6      active sync   /dev/sdm1
   7     7       8       33        7      active sync   /dev/sdc1
   8     8       8      129        8      active sync   /dev/sdi1
   9     9       8       65        9      active sync   /dev/sde1
  10    10       8      145       10      active sync   /dev/sdj1
  11    11       8      177       11      active sync   /dev/sdl1
  12    12       8      161       12      faulty   /dev/sdk1
mdadm: No md superblock detected on /dev/sdh1.
/dev/sdi1:
          Magic : a92b4efc
        Version : 0.90.00
           UUID : 7964c122:1ec1e9ff:efb010e8:fc8e0ce0 (local to host erwin-ubuntu)
  Creation Time : Sun Oct 10 11:54:54 2010
     Raid Level : raid5
  Used Dev Size : 976759936 (931.51 GiB 1000.20 GB)
     Array Size : 10744359296 (10246.62 GiB 11002.22 GB)
   Raid Devices : 12
  Total Devices : 12
Preferred Minor : 0

    Update Time : Mon Dec  5 19:24:00 2011
          State : clean
 Active Devices : 10
Working Devices : 11
 Failed Devices : 2
  Spare Devices : 1
       Checksum : 35a1b8b - correct
         Events : 74295

         Layout : left-symmetric
     Chunk Size : 64K

      Number   Major   Minor   RaidDevice State
this    13       8       17       13      spare   /dev/sdb1

   0     0       8      113        0      active sync   /dev/sdh1
   1     1       0        0        1      faulty removed
   2     2       0        0        2      faulty removed
   3     3       8       97        3      active sync   /dev/sdg1
   4     4       8       81        4      active sync   /dev/sdf1
   5     5       8       49        5      active sync   /dev/sdd1
   6     6       8      193        6      active sync   /dev/sdm1
   7     7       8       33        7      active sync   /dev/sdc1
   8     8       8      129        8      active sync   /dev/sdi1
   9     9       8       65        9      active sync   /dev/sde1
  10    10       8      145       10      active sync   /dev/sdj1
  11    11       8      177       11      active sync   /dev/sdl1
  12    12       8      161       12      faulty   /dev/sdk1
/dev/sdj1:
          Magic : a92b4efc
        Version : 0.90.00
           UUID : 7964c122:1ec1e9ff:efb010e8:fc8e0ce0 (local to host erwin-ubuntu)
  Creation Time : Sun Oct 10 11:54:54 2010
     Raid Level : raid5
  Used Dev Size : 976759936 (931.51 GiB 1000.20 GB)
     Array Size : 10744359296 (10246.62 GiB 11002.22 GB)
   Raid Devices : 12
  Total Devices : 12
Preferred Minor : 0

    Update Time : Mon Dec  5 19:24:00 2011
          State : clean
 Active Devices : 10
Working Devices : 11
 Failed Devices : 2
  Spare Devices : 1
       Checksum : 35a1b95 - correct
         Events : 74295

         Layout : left-symmetric
     Chunk Size : 64K

      Number   Major   Minor   RaidDevice State
this     7       8       33        7      active sync   /dev/sdc1

   0     0       8      113        0      active sync   /dev/sdh1
   1     1       0        0        1      faulty removed
   2     2       0        0        2      faulty removed
   3     3       8       97        3      active sync   /dev/sdg1
   4     4       8       81        4      active sync   /dev/sdf1
   5     5       8       49        5      active sync   /dev/sdd1
   6     6       8      193        6      active sync   /dev/sdm1
   7     7       8       33        7      active sync   /dev/sdc1
   8     8       8      129        8      active sync   /dev/sdi1
   9     9       8       65        9      active sync   /dev/sde1
  10    10       8      145       10      active sync   /dev/sdj1
  11    11       8      177       11      active sync   /dev/sdl1
  12    12       8      161       12      faulty   /dev/sdk1
/dev/sdk1:
          Magic : a92b4efc
        Version : 0.90.00
           UUID : 7964c122:1ec1e9ff:efb010e8:fc8e0ce0 (local to host erwin-ubuntu)
  Creation Time : Sun Oct 10 11:54:54 2010
     Raid Level : raid5
  Used Dev Size : 976759936 (931.51 GiB 1000.20 GB)
     Array Size : 10744359296 (10246.62 GiB 11002.22 GB)
   Raid Devices : 12
  Total Devices : 12
Preferred Minor : 0

    Update Time : Mon Dec  5 19:24:00 2011
          State : clean
 Active Devices : 10
Working Devices : 11
 Failed Devices : 2
  Spare Devices : 1
       Checksum : 35a1ba1 - correct
         Events : 74295

         Layout : left-symmetric
     Chunk Size : 64K

      Number   Major   Minor   RaidDevice State
this     5       8       49        5      active sync   /dev/sdd1

   0     0       8      113        0      active sync   /dev/sdh1
   1     1       0        0        1      faulty removed
   2     2       0        0        2      faulty removed
   3     3       8       97        3      active sync   /dev/sdg1
   4     4       8       81        4      active sync   /dev/sdf1
   5     5       8       49        5      active sync   /dev/sdd1
   6     6       8      193        6      active sync   /dev/sdm1
   7     7       8       33        7      active sync   /dev/sdc1
   8     8       8      129        8      active sync   /dev/sdi1
   9     9       8       65        9      active sync   /dev/sde1
  10    10       8      145       10      active sync   /dev/sdj1
  11    11       8      177       11      active sync   /dev/sdl1
  12    12       8      161       12      faulty   /dev/sdk1
/dev/sdl1:
          Magic : a92b4efc
        Version : 0.90.00
           UUID : 7964c122:1ec1e9ff:efb010e8:fc8e0ce0 (local to host erwin-ubuntu)
  Creation Time : Sun Oct 10 11:54:54 2010
     Raid Level : raid5
  Used Dev Size : 976759936 (931.51 GiB 1000.20 GB)
     Array Size : 10744359296 (10246.62 GiB 11002.22 GB)
   Raid Devices : 12
  Total Devices : 12
Preferred Minor : 0

    Update Time : Mon Dec  5 19:24:00 2011
          State : clean
 Active Devices : 10
Working Devices : 11
 Failed Devices : 2
  Spare Devices : 1
       Checksum : 35a1bb9 - correct
         Events : 74295

         Layout : left-symmetric
     Chunk Size : 64K

      Number   Major   Minor   RaidDevice State
this     9       8       65        9      active sync   /dev/sde1

   0     0       8      113        0      active sync   /dev/sdh1
   1     1       0        0        1      faulty removed
   2     2       0        0        2      faulty removed
   3     3       8       97        3      active sync   /dev/sdg1
   4     4       8       81        4      active sync   /dev/sdf1
   5     5       8       49        5      active sync   /dev/sdd1
   6     6       8      193        6      active sync   /dev/sdm1
   7     7       8       33        7      active sync   /dev/sdc1
   8     8       8      129        8      active sync   /dev/sdi1
   9     9       8       65        9      active sync   /dev/sde1
  10    10       8      145       10      active sync   /dev/sdj1
  11    11       8      177       11      active sync   /dev/sdl1
  12    12       8      161       12      faulty   /dev/sdk1
/dev/sdm1:
          Magic : a92b4efc
        Version : 0.90.00
           UUID : 7964c122:1ec1e9ff:efb010e8:fc8e0ce0 (local to host erwin-ubuntu)
  Creation Time : Sun Oct 10 11:54:54 2010
     Raid Level : raid5
  Used Dev Size : 976759936 (931.51 GiB 1000.20 GB)
     Array Size : 10744359296 (10246.62 GiB 11002.22 GB)
   Raid Devices : 12
  Total Devices : 12
Preferred Minor : 0

    Update Time : Mon Dec  5 19:24:00 2011
          State : clean
 Active Devices : 10
Working Devices : 11
 Failed Devices : 2
  Spare Devices : 1
       Checksum : 35a1bbf - correct
         Events : 74295

         Layout : left-symmetric
     Chunk Size : 64K

      Number   Major   Minor   RaidDevice State
this     4       8       81        4      active sync   /dev/sdf1

   0     0       8      113        0      active sync   /dev/sdh1
   1     1       0        0        1      faulty removed
   2     2       0        0        2      faulty removed
   3     3       8       97        3      active sync   /dev/sdg1
   4     4       8       81        4      active sync   /dev/sdf1
   5     5       8       49        5      active sync   /dev/sdd1
   6     6       8      193        6      active sync   /dev/sdm1
   7     7       8       33        7      active sync   /dev/sdc1
   8     8       8      129        8      active sync   /dev/sdi1
   9     9       8       65        9      active sync   /dev/sde1
  10    10       8      145       10      active sync   /dev/sdj1
  11    11       8      177       11      active sync   /dev/sdl1
  12    12       8      161       12      faulty   /dev/sdk1

mdadm --assemble --scan --verbose  - acapture truncado para salvar caracteres - como observado em edit - resource busy foi resolvido parando o array primeiro - sim tão simples quanto isso

erwin@erwin-ubuntu:~$ sudo mdadm --assemble --scan --verbose
mdadm: looking for devices for /dev/md0
mdadm: cannot open device /dev/sdm1: Device or resource busy
mdadm: /dev/sdm1 has wrong uuid.

Meu sentimento é que eu preciso provavelmente zerar o superbloco nas duas unidades defeituosas (já que a unidade é mostrada como sobressalente, e o outro número do disco bem não corresponde) - então ela precisa ser remontado, mas não sei o que fazer com o recurso ocupado.

Eu não quero adotar etapas desnecessárias e possivelmente prejudiciais aos dados, portanto, qualquer recomendação será muito bem-vinda.

1

derobert sugeriu parar o array e depois remontá-lo : D Yay resource busy foi corrigido, mas ainda parece que duas unidades não estão cooperando. Eu estou supondo que uma montagem / recriação manual está em ordem?

Todas as ideias são bem-vindas para o próximo passo?

Última saída do mdadm assemble listada abaixo:

erwin@erwin-ubuntu:~$ sudo mdadm --assemble --scan --verbose
mdadm: looking for devices for /dev/md0
mdadm: no RAID superblock on /dev/sdm
mdadm: /dev/sdm has wrong uuid.
mdadm: no RAID superblock on /dev/sdl
mdadm: /dev/sdl has wrong uuid.
mdadm: no RAID superblock on /dev/sdk
mdadm: /dev/sdk has wrong uuid.
mdadm: no RAID superblock on /dev/sdj
mdadm: /dev/sdj has wrong uuid.
mdadm: no RAID superblock on /dev/sdi
mdadm: /dev/sdi has wrong uuid.
mdadm: cannot open device /dev/sdh6: Device or resource busy
mdadm: /dev/sdh6 has wrong uuid.
mdadm: no RAID superblock on /dev/sdh5
mdadm: /dev/sdh5 has wrong uuid.
mdadm: no RAID superblock on /dev/sdh4
mdadm: /dev/sdh4 has wrong uuid.
mdadm: no RAID superblock on /dev/sdh3
mdadm: /dev/sdh3 has wrong uuid.
mdadm: no RAID superblock on /dev/sdh2
mdadm: /dev/sdh2 has wrong uuid.
mdadm: no RAID superblock on /dev/sdh1
mdadm: /dev/sdh1 has wrong uuid.
mdadm: cannot open device /dev/sdh: Device or resource busy
mdadm: /dev/sdh has wrong uuid.
mdadm: no RAID superblock on /dev/sdg
mdadm: /dev/sdg has wrong uuid.
mdadm: no RAID superblock on /dev/sdf
mdadm: /dev/sdf has wrong uuid.
mdadm: no RAID superblock on /dev/sde
mdadm: /dev/sde has wrong uuid.
mdadm: no RAID superblock on /dev/sdd
mdadm: /dev/sdd has wrong uuid.
mdadm: no RAID superblock on /dev/sdc
mdadm: /dev/sdc has wrong uuid.
mdadm: no RAID superblock on /dev/sdb
mdadm: /dev/sdb has wrong uuid.
mdadm: no RAID superblock on /dev/sda
mdadm: /dev/sda has wrong uuid.
mdadm: /dev/sdm1 is identified as a member of /dev/md0, slot 4.
mdadm: /dev/sdl1 is identified as a member of /dev/md0, slot 9.
mdadm: /dev/sdk1 is identified as a member of /dev/md0, slot 5.
mdadm: /dev/sdj1 is identified as a member of /dev/md0, slot 7.
mdadm: /dev/sdi1 is identified as a member of /dev/md0, slot 13.
mdadm: /dev/sdg1 is identified as a member of /dev/md0, slot 6.
mdadm: /dev/sdf1 is identified as a member of /dev/md0, slot 11.
mdadm: /dev/sde1 is identified as a member of /dev/md0, slot 2.
mdadm: /dev/sdd1 is identified as a member of /dev/md0, slot 10.
mdadm: /dev/sdc1 is identified as a member of /dev/md0, slot 8.
mdadm: /dev/sdb1 is identified as a member of /dev/md0, slot 0.
mdadm: /dev/sda1 is identified as a member of /dev/md0, slot 3.
mdadm: no uptodate device for slot 1 of /dev/md0
mdadm: added /dev/sde1 to /dev/md0 as 2
mdadm: added /dev/sda1 to /dev/md0 as 3
mdadm: added /dev/sdm1 to /dev/md0 as 4
mdadm: added /dev/sdk1 to /dev/md0 as 5
mdadm: added /dev/sdg1 to /dev/md0 as 6
mdadm: added /dev/sdj1 to /dev/md0 as 7
mdadm: added /dev/sdc1 to /dev/md0 as 8
mdadm: added /dev/sdl1 to /dev/md0 as 9
mdadm: added /dev/sdd1 to /dev/md0 as 10
mdadm: added /dev/sdf1 to /dev/md0 as 11
mdadm: added /dev/sdi1 to /dev/md0 as 13
mdadm: added /dev/sdb1 to /dev/md0 as 0
mdadm: /dev/md0 assembled from 10 drives and 1 spare - not enough to start the array.
    
por Erwin Kuschke 09.12.2011 / 20:53

3 respostas

6

Primeiramente, as letras de unidade só acontecem algumas vezes, dependendo de como a sua máquina está configurada. Não se espera que as letras de unidade sejam estáveis durante as reinicializações desde, ummm, um tempo. Por isso, não é uma grande preocupação que o seu disco tenha mudado para você.

Assumindo que o dmraid e o mapeador de dispositivos não estejam usando seus dispositivos:

Bem, mdadm --stop /dev/md0 pode cuidar de suas mensagens ocupadas, acho que é por isso que está reclamando. Então você pode tentar sua linha de montagem novamente. Se não funcionar, - pare novamente seguido por montar com --run (sem executar, --assemble --scan não iniciará uma matriz degradada). Em seguida, você pode remover e adicionar novamente o disco com falha para permitir que ele tente uma reconstrução.

/ dev / sde está desatualizado (veja o contador de eventos). Os outros parecem bem à primeira vista, então eu acho que você realmente tem uma boa chance de não ter dificuldades.

Você não deve zerar nenhum superbloco ainda. Muito alto risco de perda de dados. Se --run não funcionar, acho que você vai querer encontrar alguém localmente (ou quem pode ssh in) que sabe o que está fazendo para tentar consertar.

Em resposta à Atualização 1

Isso "não é suficiente para iniciar a matriz" nunca é uma boa mensagem para obter do mdadm. O que significa é que o mdadm encontrou 10 drives fora do seu array RAID5 de 12 drives, e como espero que você esteja ciente, o RAID5 só pode sobreviver a um um falha, não dois.

Bem, vamos tentar juntar o que aconteceu. Primeiro, durante a reinicialização, houve uma mudança na letra da unidade, o que é irritante para nós tentarmos descobrir, mas o mdraid não se importa com isso. Lendo através da sua saída mdadm, aqui está o remapeamento que aconteceu (classificado pelo disco de raid #):

00 sdh1 -> sdb1
02 sdk1 -> sde1 [OUTDATED]
03 sdg1 -> sda1
04 sdf1 -> sdm1
05 sdd1 -> sdk1
06 sdm1 -> sdg1
07 sdc1 -> sdj1
08 sdi1 -> sdc1
09 sde1 -> sdl1
10 sdj1 -> sdd1
11 sdl1 -> sdf1
13 sdb1 -> sdi1 [SPARE]

# 02 tem um contador de 'eventos' menor que os outros. Isso significa que deixou a matriz em algum momento.

Seria bom se você conhecesse parte do histórico dessa matriz, por exemplo, "RAID5 de 12 unidades e 1 hot spare" correto?

Não sei bem qual é a sequência de falhas que levam a isso, no entanto. Parece que, em algum momento, o dispositivo nº 1 falhou e uma reconstrução no dispositivo nº 12 começou.

Mas não consigo entender exatamente o que aconteceu depois. Talvez você tenha registros - ou um administrador para perguntar. Aqui está o que eu não consigo explicar:

De alguma forma, o # 12 tornou-se # 13. De alguma forma, o # 2 se tornou # 12.

Então, a reconstrução para o # 12 deve ter terminado e o # 12 seria o # 1. Talvez não - talvez não tenha conseguido reconstruir por algum motivo. Então talvez o # 2 falhou - ou talvez o # 2 tenha falhado, é por isso que a reconstrução não foi concluída e alguém tentou remover e adicionar novamente o # 2? Isso pode torná-lo # 12. Então talvez removido e re-adicionado o sobressalente, tornando # 13.

Ok, mas é claro que, neste momento, você teve uma falha de dois discos. Está bem. Isso faz sentido.

Se foi isso que aconteceu, você sofreu uma falha de dois discos. Isso significa que você perdeu dados. O que você faz a seguir depende da importância desses dados (considerando também o quanto seus backups são bons).

Se os dados forem muito valiosos (e você não tiver bons backups), entre em contato com especialistas em recuperação de dados. Caso contrário:

Se os dados forem valiosos o suficiente, você deve usar dd para criar imagens de todos os discos envolvidos (você pode usar discos maiores e arquivos em cada um para economizar dinheiro. Externos de 2 ou 3 TB, por exemplo). Em seguida, faça uma cópia das imagens. Em seguida, trabalhe na recuperação dessa cópia (você pode usar dispositivos de loop para fazer isso).

Obtenha mais peças de reposição. Provavelmente, você tem um disco morto. Você tem pelo menos alguns discos questionáveis - smartctl pode ser capaz de lhe dizer mais.

Próximo --force à sua linha --assemble . Isso fará com que o mdadm use o disco desatualizado de qualquer maneira. Isso significa que alguns setores agora terão dados desatualizados, outros não. Adicione um desses novos discos como sobressalente, deixe o recondicionamento terminar. Espero que você não acerte nenhum bloco defeituoso (o que causaria falha na reconstrução, e acredito que a única resposta é fazer com que o disco seja mapeado). Em seguida, fsck -f o disco. Provavelmente haverá erros. Depois que eles forem corrigidos, monte o disco e veja em que formato seus dados estão.

Recomendações

No futuro, não crie RAID5s de 12 discos. A probabilidade de falha de dois discos é muito alta. Use RAID6 ou RAID10. Além disso, certifique-se de esfregar rotineiramente seus arrays em busca de blocos defeituosos ( echo check > /sys/block/md0/md0/sync_action ).

    
por 09.12.2011 / 21:35
1

Você pode tentar usar comandos mdadm com o seguinte parâmetro de kernel: init = / bin / bash

    
por 23.11.2012 / 13:54
0

Não tenho certeza se essa é a melhor maneira de resolver isso, mas isso me ajudou quando uma unidade no meu RAID10 ficou fora de sincronia por um motivo desconhecido:

Primeiro, eu parei todos os containers RAID que eu pude encontrar com sudo mdadm --stop /dev/md* (tenha cuidado aqui caso você esteja executando múltiplos RAIDs, alguns dos quais você pode estar dependendo). Então usei o comando scan para recriar todos os RAIDs:

sudo mdadm --assemble --scan --verbose

Isso, no entanto, criou um contêiner separado para a unidade que estava fora de sincronia, então parei com sudo mdadm --stop /dev/mdX (você pode descobrir qual X verificando sudo mdadm --detail /dev/md* ; lá eu também pude ver o nome do dispositivo de a unidade fora de sincronia, /dev/sdg no meu caso). Por fim, adicionei novamente essa unidade ao contêiner pai, md127 no meu caso:

sudo --manage /dev/md127 -a /dev/sdg

E agora começou a sincronizar, como eu poderia dizer, verificando

sudo watch cat /proc/mdstat
…
[===>............................] recovery = 8.3%
…
    
por 26.11.2018 / 01:12

Tags