Falha no disco de produção - Sorte é domingo e fora de horas (mdadm raid 5)

2

Eu tenho uma matriz de raids de produção que atingiu problemas. Felizmente, quando eu configurei, eu atribuí um hot spare. Aqui está como está o status agora:

mdadm --detail /dev/md2
/dev/md2:
        Version : 0.90
  Creation Time : Sun Jul  4 14:49:33 2010
     Raid Level : raid5
     Array Size : 3907039744 (3726.04 GiB 4000.81 GB)
  Used Dev Size : 976759936 (931.51 GiB 1000.20 GB)
   Raid Devices : 5
  Total Devices : 6
Preferred Minor : 2
    Persistence : Superblock is persistent

    Update Time : Sun Aug  5 11:56:50 2012
          State : active, degraded, recovering
 Active Devices : 4
Working Devices : 5
 Failed Devices : 1
  Spare Devices : 1

         Layout : left-symmetric
     Chunk Size : 64K

 Rebuild Status : 63% complete

           UUID : dce41d37:804dea59:e5727503:733c194b
         Events : 0.13139

    Number   Major   Minor   RaidDevice State
       0       8      145        0      active sync   /dev/sdj1
       1       8      161        1      active sync   /dev/sdk1
       2       8      177        2      active sync   /dev/sdl1
       3       8      193        3      active sync   /dev/sdm1
       5       8      225        4      spare rebuilding   /dev/sdo1

       6       8      209        -      faulty spare   /dev/sdn1

Se e quando isso for concluído, o que preciso fazer para substituir a unidade defeituosa como uma nova reserva? Idealmente, não quero ter que desligar o sistema na próxima semana.

    
por user131012 05.08.2012 / 13:07

2 respostas

2

Se o seu sistema suporta hot-swap (sata, sas, ...), então você pode fazer:

mdadm /dev/md2 --remove /dev/sdn1

Para remover o disco da matriz de ataque md2. Mais tarde, quando você tiver conectado o novo disco e particionado, você poderá fazer:

mdadm /dev/md2 --add /dev/sdx1 

Para adicioná-lo ao ataque.

    
por 05.08.2012 / 13:44
1

Se você precisa desativar o servidor, depende apenas do SO e do hardware host-swap features. Se hot-swap for suportado na pilha inteira , deve ser possível remover o disco com o servidor em execução.

Por outro lado, o hot spare na matriz de ataque apenas deu a você tempo para planejar o tempo de inatividade programado, se necessário.

    
por 05.08.2012 / 13:35

Tags